CN115648215B

CN115648215B - 基于注意力机制和孪生反卷积的服务机器人抓取检测方法

Info

Publication number: CN115648215B
Application number: CN202211376120.2A
Authority: CN
Inventors: 李忠辉; 曹志强; 王硕; 任广力; 谭民; 亢晋立
Original assignee: Beijing Nengchuang Technology Co ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Nengchuang Technology Co ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2024-01-26
Anticipated expiration: 2042-11-04
Also published as: CN115648215A

Abstract

本发明属于服务机器人技术领域，具体涉及一种基于注意力机制和孪生反卷积的服务机器人抓取检测方法、***、装置，旨在解决现有基于编码‑解码结构的抓取回归网络在解码过程中会呈现出棋盘格伪影，从而降低服务机器人抓取检测性能的问题。本发明方法包括：获取包含目标物体的原始彩色图像和原始深度图像；获取目标物体包围框，并得到第一深度图像区域、第一彩色图像区域；将图像区域调整至设定尺寸；对调整尺寸的图像区域进行编码；对编码后的特征图进行精修；将精修后的特征图进行解码；得到最佳抓取检测框，实现对目标物体的抓取检测。本发明消除了基于编码‑解码结构的抓取回归网络在解码过程中呈现出的棋盘格伪影，提高了抓取检测的性能。

Description

基于注意力机制和孪生反卷积的服务机器人抓取检测方法

技术领域

本发明属于服务机器人技术领域，具体涉及一种基于注意力机制和孪生反卷积的服务机器人抓取检测方法、***、装置。

背景技术

近年来，人工智能和计算机视觉的发展拓宽了服务机器人在日常生活中的应用范围。为了更好的为人类服务，携带机械臂且能够提供抓取等操作功能的服务机器人成为研究的热点。为了实现对目标物体的抓取，通常需要首先基于深度学习的物体检测方法(例如Faster R-CNN)得到目标物体边界框，而后利用抓取检测方法获得目标物体最佳的抓取位置，现已受到广泛关注。

传统的抓取检测方法一般基于物体的三维模型，采用模型匹配的方式进行抓取检测，其扩展性较差。近年来，基于卷积神经网络的抓取检测方法成为主流，主要包括两类：基于候选-评价的抓取检测方法和基于回归的抓取检测方法。基于候选-评价的抓取检测方法一般将抓取检测分成两个阶段，首先通过采样等方法获得多个候选抓取位置，然后对这些候选抓取位置进行评价并排序，排名最高的候选抓取即作为最佳抓取。该类方法由于需要对每个候选抓取进行评价，较为耗时，且特征可能会重复提取。基于回归的抓取检测方法则直接对整张图像进行分析，实时性好，可以进一步细分为基于编码结构的抓取回归网络和基于编码-解码结构的抓取回归网络。基于编码结构的抓取回归网络通过回归直接预测出最佳抓取位置，但产生的最佳抓取倾向于输出可抓取位置的均值，当存在多个解的情形下，均值可能是一个无效的抓取；而基于编码-解码结构的抓取回归网络通过基于反卷积的解码器对编码器输出的特征图进行上采样，可以预测出每个像素位置所对应的最佳抓取，其中研究人员还在编码器和解码器之间加入了特征精修模块，主要通过对编码器输出进行通道注意力、通道随机混合(Channel Shuffle)操作等处理，为解码器提供更有判别力的特征。基于编码-解码结构的抓取回归网络能够在保证实时性的前提下获得较高的检测精度，但是，它在解码过程中会因反卷积出现卷积结果不均匀叠加的问题，这会导致上采样结果呈现出棋盘格伪影，从而影响抓取检测的性能。如何消除棋盘格伪影的影响以进一步提升抓取检测的性能有待更深入的研究。

因此，如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有基于编码-解码结构的抓取回归网络在解码过程中会呈现出棋盘格伪影，从而降低服务机器人抓取检测性能的问题，本发明提出了一种基于注意力机制和孪生反卷积的服务机器人抓取检测方法，该方法包括：

步骤S10，服务机器人通过视觉传感器获取包含目标物体的原始彩色图像和原始深度图像；

步骤S20，基于所述原始彩色图像，通过基于深度学习的物体检测方法获取目标物体的边界框，并将所述边界框在所述原始深度图像、所述原始彩色图像中的对应区域作为第一深度图像区域、第一彩色图像区域；

步骤S30，将所述第一深度图像区域、所述第一彩色图像区域分别调整至设定的尺寸，作为第二深度图像区域、第二彩色图像区域；

步骤S40，将所述第二深度图像区域、所述第二彩色图像区域沿通道方向拼接起来，输入抓取检测卷积神经网络的编码器，得到第一特征图；

步骤S50，通过所述抓取检测卷积神经网络的特征精修模块对所述第一特征图进行特征精修，得到第二特征图；

步骤S60，通过所述抓取检测卷积神经网络的解码器对所述第二特征图进行上采样，得到抓取质量特征图、宽度特征图、第一角度特征图、第二角度特征图；

步骤S70，基于所述抓取质量特征图、所述宽度特征图、所述第一角度特征图、所述第二角度特征图得到最佳抓取矩形，进而得到目标物体在所述原始彩色图像中的最佳抓取检测框，实现对目标物体的抓取检测；

其中，所述抓取质量特征图、所述宽度特征图、所述第一角度特征图、所述第二角度特征图中每个像素点的值分别描述了以相应像素点为中心的抓取矩形的抓取质量评价值、宽度、2倍朝向角的余弦值、2倍朝向角的正弦值。

在一些优选的实施方式中，所述抓取检测卷积神经网络包括编码器、特征精修模块、解码器；

所述编码器包括三个级联的标准卷积层；

所述特征精修模块由交叉-幅度注意力、通道注意力模块、通道随机混合操作和标准卷积层串联组成；

所述解码器包括三个级联的孪生反卷积模块、四个并行的标准卷积；三个级联的孪生反卷积模块与四个并行的标准卷积相连接；

所述孪生反卷积模块包括两个分支，一个原始分支，一个孪生分支；所述原始分支输入为特征图F_in，将F_in的每个通道进行标准反卷积操作，生成特征图F_t；所述孪生分支输入为所有元素值为1的矩阵，将所有元素值为1的矩阵进行反卷积操作，生成权重调整矩阵M_w；

特征图F_t的每一个通道与矩阵M_w进行逐元素矩阵除法操作，并将逐元素矩阵除法操作获取的结果经卷积层进行通道维数调整，得到特征图F_out，作为孪生反卷积模块的输出。

在一些优选的实施方式中，对所述第一特征图进行特征精修，得到第二特征图，其方法为：

步骤S501，利用交叉-幅度注意力对所述第一特征图进行处理，得到交叉-幅度注意力特征图；

步骤S502，将所述交叉-幅度注意力特征图依次经过通道注意力模块、通道随机混合操作和标准卷积层的处理，得到第二特征图。

在一些优选的实施方式中，利用交叉-幅度注意力对所述第一特征图进行处理，得到交叉-幅度注意力特征图，其方法为：

对所述第一特征图分别施加沿高度、宽度维度上的平均池化，获得高度和宽度维度对应的特征图AVG_h、AVG_w；

AVG_h和AVG_w通过矩阵乘法生成平均交叉特征图F_avg；

对所述第一特征图分别施加沿高度、宽度维度上的最大池化，获得高度和宽度维度对应的特征图MAX_h、MAX_w；

MAX_h和MAX_w通过矩阵乘法生成最大交叉特征图F_max；

对F_avg和F_max执行逐元素矩阵加法，之后依次经过沿通道方向的平均池化、标准卷积、批归一化和ReLU激活函数，进而获得交叉注意力图A_cross；

对所述第一特征图分别施加沿通道维度的最大池化和平均池化，获得通道维度对应的特征图MAX_c和AVG_c；

MAX_c和AVG_c经逐元素矩阵减法后，再依次经过标准卷积、批归一化和ReLU激活函数，获得幅度注意力图A_amp；

将A_cross和A_amp沿通道方向进行拼接，并将拼接结果进行标准卷积处理，获得注意力图A_fuse；将A_fuse与所述第一特征图中每个通道的特征图进行逐元素的矩阵乘法，获得交叉-幅度注意力特征图。

在一些优选的实施方式中，基于所述抓取质量特征图、所述宽度特征图、所述第一角度特征图、所述第二角度特征图得到最佳抓取矩形，进而得到目标物体在所述原始彩色图像中的最佳抓取检测框，其方法为：

选取所述抓取质量特征图中最大抓取质量评价值所对应的像素点的位置作为最佳抓取矩形的中心位置，记为(u^*,v^*)；

分别获取所述第一角度特征图、所述第二角度特征图在位置(u^*,v^*)处的对应取值和/>进而计算出最佳抓取矩形的朝向角θ^*：/>

获得所述宽度特征图在位置(u^*,v^*)处的对应取值，作为最佳抓取矩形的宽度w^*，最佳抓取矩形的高度h^*设定为w^*的一半，即h^*＝w^*/2；

综合u^*、v^*、θ^*、w^*和h^*，得到最佳抓取矩形；

获取所述最佳抓取矩形的四个顶点的坐标，进而得到所述最佳抓取矩形的四个顶点在原始彩色图像中的对应点，分别记为P₁、P₂、P₃、P₄；

以P₁、P₂、P₃、P₄为顶点构成目标物体在所述原始彩色图像中的最佳抓取检测框。

在一些优选的实施方式中，所述抓取检测卷积神经网络的损失函数为：

其中，L_loss为抓取检测卷积神经网络在训练时的损失函数，N为抓取检测卷积神经网络训练时的样本总数；Q_i、W_i、C_i、S_i分别为第i个样本对应的抓取检测卷积神经网络输出的抓取质量特征图、宽度特征图、第一角度特征图、第二角度特征图，分别为Q_i、W_i、C_i、S_i对应的真值，i＝1,2,…,N。

本发明的第二方面，提出了一种基于注意力机制和孪生反卷积的服务机器人抓取检测***，包括：图像获取模块、物体检测模块、尺寸调整模块、编码模块、精修模块、解码模块、抓取检测模块；

所述图像获取模块，配置为服务机器人通过视觉传感器获取包含目标物体的原始彩色图像和原始深度图像；

所述物体检测模块，配置为基于所述原始彩色图像，通过基于深度学习的物体检测方法获取目标物体的边界框，并将所述边界框在所述原始深度图像、所述原始彩色图像中的对应区域作为第一深度图像区域、第一彩色图像区域；

所述尺寸调整模块，配置为将所述第一深度图像区域、所述第一彩色图像区域分别调整至设定的尺寸，作为第二深度图像区域、第二彩色图像区域；

所述编码模块，配置为将所述第二深度图像区域、所述第二彩色图像区域沿通道方向拼接起来，输入抓取检测卷积神经网络的编码器，得到第一特征图；

所述精修模块，配置为通过所述抓取检测卷积神经网络的特征精修模块对所述第一特征图进行特征精修，得到第二特征图；

所述解码模块，配置为通过所述抓取检测卷积神经网络的解码器对所述第二特征图进行上采样，得到抓取质量特征图、宽度特征图、第一角度特征图、第二角度特征图；

所述抓取检测模块，配置为基于所述抓取质量特征图、所述宽度特征图、所述第一角度特征图、所述第二角度特征图得到最佳抓取矩形，进而得到目标物体在所述原始彩色图像中的最佳抓取检测框，实现对目标物体的抓取检测；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法。

本发明的有益效果：

本发明通过基于标准卷积的编码器进行特征编码，并采用基于注意力机制的特征精修模块对编码器输出的特征图进行特征精修，最后通过基于孪生反卷积的解码器进行上采样，得到抓取质量特征图、宽度特征图、第一角度特征图、第二角度特征图，进而得到最佳抓取矩形及其在原始彩色图像中的最佳抓取检测框，实现对目标物体的抓取检测。本发明消除了基于编码-解码结构的抓取回归网络在解码过程中呈现出的棋盘格伪影，提高了抓取检测的性能，为服务机器人在办公、家居等环境下的抓取检测提供技术支持。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于注意力机制和孪生反卷积的服务机器人抓取检测方法的流程示意图；

图2是本发明一种实施例的孪生反卷积模块的结构示意图；

图3为本发明一种实施例的基于注意力机制和孪生反卷积的服务机器人抓取检测***的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于注意力机制和孪生反卷积的服务机器人抓取检测方法，如图1所示，该方法包括以下步骤：

为了更清晰地对本发明基于注意力机制和孪生反卷积的服务机器人抓取检测方法进行说明，下面对本发明方法一种实施例中各步骤进行展开详述。

该实施例为一种较优的实现方式，预先构建一个包含编码器、特征精修模块和解码器的抓取检测卷积神经网络，基于预先构建的训练样本集并结合预先设计的损失函数(具体损失函数的设置会在下文具体展开说明)对该抓取检测卷积神经网络进行训练，获取编码器、特征精修模块和解码器的参数，并应用到本发明的基于注意力机制和孪生反卷积的服务机器人抓取检测方法中。另外，每个像素位置对应的抓取采用抓取矩形描述，用五元组(u,v,θ,w,h)进行参数化表征，其中(u,v)为抓取矩形的中心，为抓取矩形的朝向角，用抓取矩形的宽度方向与图像水平方向之间的角度加以描述，w和h分别为抓取矩形的宽度和高度，h＝0.5w。对于每个抓取矩形而言，存在一个抓取质量评价值q∈[0,1]与其对应。

基于注意力机制和孪生反卷积的服务机器人抓取检测方法实现对目标物体的抓取检测的过程，具体如下：

在本实施例中，服务机器人通过安装在自身的Kinect传感器获取包含目标物体的原始彩色图像和原始深度图像。

在本实施例中，基于所述原始彩色图像，利用基于深度学习的物体检测方法进行目标物体的检测，得到目标物体的边界框，进而得到该边界框的四个顶点的坐标，将原始深度图像中与这四个坐标对应的图像区域称之为目标物体的第一深度图像区域，记为D_o；将原始彩色图像中与这四个坐标对应的图像区域称之为目标物体的第一彩色图像区域，记为G_o；其中，在本发明中，基于深度学习的物体检测方法优选采用Faster R-CNN。

在本实施例中，优选将D_o调整至224×224尺寸，得到第二深度图像区域D_m；优选将G_o调整至224×224尺寸，得到第二彩色图像区域G_m。具体如下：

采用计算机视觉库OpenCV中的resize函数对D_o进行尺度缩放，得到尺寸为224×224的第二深度图像区域D_m；采用计算机视觉库OpenCV中的resize函数对G_o进行尺度缩放，得到尺寸为224×224的第二彩色图像区域G_m。

在本实施例中，将第二深度图像区域D_m、第二彩色图像区域G_m沿通道方向拼接起来，输入抓取检测卷积神经网络的编码器，得到第一特征图F₁。

其中，编码器由三个标准卷积层级联而成：EnConv-1、EnConv-2和EnConv-3。EnConv-1、EnConv-2、EnConv-3分别采用9×9、7×7和5×5的卷积核，步长均为(2,2)，特征图的大小(通道数×高度×宽度)分别为32×112×112、48×56×56和72×28×28；第二深度图像区域D_m和第二彩色图像区域G_m沿通道方向的拼接结果依次经过EnConv-1、EnConv-2和EnConv-3处理后，得到第一特征图F₁，其大小为72×28×28。

在本实施例中，通过所述抓取检测卷积神经网络的特征精修模块对第一特征图F₁进行特征精修，得到第二特征图F₂，其中，特征精修模块采用注意力机制，由交叉-幅度注意力、通道注意力模块、通道随机混合操作和标准卷积层串联组成。

步骤S501，利用交叉-幅度注意力对第一特征图F₁进行处理，得到交叉-幅度注意力特征图F_CAA，具体过程如下：

对第一特征图F₁分别施加沿高度、宽度维度上的平均池化，获得高度和宽度维度对应的特征图AVG_h、AVG_w，其特征图大小分别为72×1×28、72×28×1；AVG_h和AVG_w通过矩阵乘法生成平均交叉特征图F_avg，对应特征图大小为72×28×28；对第一特征图F₁分别施加沿高度、宽度维度上的最大池化，获得高度和宽度维度对应的特征图MAX_h、MAX_w，其特征图大小分别为72×1×28、72×28×1；MAX_h和MAX_w通过矩阵乘法生成最大交叉特征图F_max，对应特征图大小为72×28×28；对F_avg和F_max执行逐元素矩阵加法，之后依次经过沿通道方向的平均池化、标准卷积(卷积核7×7)、批归一化和ReLU激活函数，进而获得大小为1×28×28的交叉注意力图A_cross。

对第一特征图F₁分别施加沿通道维度的最大池化和平均池化，获得通道维度对应的特征图MAX_c和AVG_c，其特征图大小均为1×28×28；MAX_c和AVG_c经逐元素矩阵减法后，其结果再依次经过标准卷积(卷积核3×3)、批归一化和ReLU激活函数，获得大小为1×28×28的幅度注意力图A_amp。

将A_cross和A_amp沿通道方向进行拼接，拼接结果经卷积核和步长分别为3×3和(1,1)的标准卷积进行处理，获得大小为1×28×28的注意力图A_fuse。将A_fuse与第一特征图F₁中每个通道的特征图进行逐元素的矩阵乘法，获得交叉-幅度注意力特征图F_CAA，其大小为72×28×28。

步骤S502，将交叉-幅度注意力特征图F_CAA依次经过通道注意力模块、通道随机混合操作和标准卷积层的处理，得到精修后的第二特征图F₂，其特征图大小为72×28×28，其中通道注意力模块的具体实现参见文献：Sanghyun Woo,Jongchan Park,Joon-Young Lee,In So Kweon.CBAM:Convolutional Block Attention Module.European Conference onComputer Vision,2018,3-19；通道随机混合操作的具体实现参见文献：Xiangyu Zhang,Xinyu Zhou,Mengxiao Lin,Jian Sun.ShuffleNet:An Extremely EfficientConvolutional Neural Network for Mobile Devices.IEEE Conference on ComputerVision and Pattern Recognition,2018,6848-6856；标准卷积层的卷积核和步长分别为3×3和(1,1)。

在本实施例中，通过所述抓取检测卷积神经网络的解码器对所述第二特征图F₂进行上采样，生成抓取质量特征图Q、宽度特征图W、第一角度特征图C、第二角度特征图S，其中，解码器由三个级联的孪生反卷积模块(TDconv-1、TDconv-2和TDconv-3)以及四个并行的标准卷积(Conv-1、Conv-2、Conv-3和Conv-4)组成。

单个孪生反卷积模块的结构示意图如图2所示，包含原始分支和孪生分支，其中F_in、c_in、h_in和w_in分别为该模块的输入特征图及其通道维数、高度和宽度，F_out、C_out、H_out和W_out分别为输出特征图及其通道维数、高度和宽度，且h_in≤H_out、w_in≤W_out。原始分支对输入特征图F_in的每个通道进行标准反卷积操作，生成特征图F_t，大小为c_in×H_out×W_out；同时，孪生分支以所有元素值为1的矩阵Ones作为输入，其特征图尺寸为1×h_in×w_in，该输入经反卷积操作生成权重调整矩阵M_w，其特征图大小为1×H_out×W_out；然后，特征图F_t的每一个通道与矩阵M_w进行逐元素矩阵除法操作，其结果经卷积核为1×1的卷积层进行通道维数调整，得到孪生反卷积模块的输出特征图F_out；原始分支中的标准反卷积操作采用K_g×K_g的卷积核，步长设置为(s_g,s_g)，其中，K_g为卷积核的参数，s_g为预设步长；孪生分支中的反卷积操作采用K_g×K_g的卷积核，该卷积核的内部权重均设置为1/m，m＝(K_g)²，步长均设置为(s_g,s_g)。

孪生反卷积模块TDconv-1、TDconv-2和TDconv-3对应的(c_in,K_g,s_g,C_out)参数的取值分别为(72,3,2,48)、(48,5,2,36)和(36,7,2,18)；TDconv-1、TDconv-2和TDconv-3对应的(h_in,w_in,H_out,W_out)参数的取值分别为(28,28,56,56)、(56,56,112,112)和(112,112,224,224)。

本实施例中，第二特征图F₂送入解码器，依次经过TDconv-1、TDconv-2和TDconv-3进行处理，之后将TDconv-3的输出特征图分别送入四个标准卷积Conv-1、Conv-2、Conv-3和Conv-4，这四个标准卷积各自处理后分别输出抓取质量特征图Q、宽度特征图W、第一角度特征图C、第二角度特征图S，其中这四个标准卷积均采用3×3的卷积核，步长均为(1,1)，输出特征图的尺寸均为1×224×224。抓取质量特征图Q中每个像素点的值描述了以相应像素点为中心的抓取矩形的抓取质量评价值q，宽度特征图W中每个像素点的值描述了以相应像素点为中心的抓取矩形的宽度w，第一角度特征图C中每个像素点的值描述了以相应像素点为中心的抓取矩形的朝向角θ的2倍的余弦值，第二角度特征图S中每个像素点的值描述了以相应像素点为中心的抓取矩形的朝向角θ的2倍的正弦值。

本实施例中，通过抓取质量特征图Q、宽度特征图W、第一角度特征图C、第二角度特征图S得到最佳抓取矩形的具体过程如下：

选取抓取质量特征图Q中最大抓取质量评价值所对应的像素点的位置作为最佳抓取矩形的中心位置，记为(u^*,v^*)；

分别获取第一角度特征图C、第二角度特征图S在位置(u^*,v^*)处的对应取值和/>进而计算出最佳抓取矩形的朝向角θ^*：/>获得宽度特征图W在位置(u^*,v^*)处的对应取值，作为最佳抓取矩形的宽度w^*，最佳抓取矩形的高度h^*设定为w^*的一半，即h^*＝w^*/2；

综合u^*、v^*、θ^*、w^*和h^*，得到最佳抓取矩形用(u^*,v^*,θ^*,w^*,h^*)进行表征。

基于最佳抓取矩形求出该最佳抓取矩形的四个顶点的坐标，分别为(u₁,v₁)、(u₂,v₂)、(u₃,v₃)、(u₄,v₄)，并得到该最佳抓取矩形的四个顶点在原始彩色图像中的对应点，分别记为P₁、P₂、P₃、P₄，它们在原始彩色图像中的像素坐标分别为(u_O+round(u₁×r_fw),v_O+round(v₁×r_fh))、(u_O+round(u₂×r_fw),v_O+round(v₂×r_fh))、(u_O+round(u₃×r_fw),v_O+round(v₃×r_fh))、(u_O+round(u₄×r_fw),v_O+round(v₄×r_fh))，其中(u_O,v_O)为第一彩色图像区域G_o的左上角的顶点在原始彩色图像中的像素坐标，round()为四舍五入取整函数，r_fw和r_fh分别是第一彩色图像区域G_o与第二彩色图像区域G_m之间的宽度缩放比例和高度缩放比例，r_fw＝w_o/224，r_fh＝h_o/224，h₀和w₀分别是第一彩色图像区域G_o的高度和宽度；以P₁、P₂、P₃、P₄为顶点构成目标物体在原始彩色图像中的最佳抓取检测框，实现对目标物体的抓取检测。

下面对本发明实施例包含编码器、特征精修模块和解码器的抓取检测卷积神经网络的训练样本、损失函数进行说明。

本实施例中，所述抓取检测卷积神经网络采用Cornell抓取数据集进行训练，Cornell抓取数据集包含885张RGB-D待抓取物体的图像，并且有5110个人工标注的抓取矩形。将Cornell抓取数据集中的885张图像经过随机裁剪、放大和旋转之后生成4425张224×224的RGB-D图像，其中每张RGB-D图像包含一个224×224的深度图像区域和一个224×224的彩色图像区域，这两个图像区域将被直接送入抓取检测卷积神经网络中以对该网络进行训练。每张RGB-D图像对应的抓取质量特征图的真值宽度特征图的真值/>第一角度特征图的真值/>和第二角度特征图的真值/>构建如下：首先对尺寸均为1×224×224的以像素值0进行初始化；对于每张RGB-D图像的每个人工标注的抓取矩形来说，以人工标注的抓取矩形的中心点、宽度的1/3和高度作为新矩形的中心点、宽度和高度；并对/>中与该新矩形相对应的区域内的像素点用1赋值，对/>中与该新矩形相对应的区域内的像素点分别用原人工标注的抓取矩形的宽度、2倍朝向角的余弦值、2倍朝向角的正弦值进行赋值；待该RGB-D图像的所有人工标注的抓取矩形都处理完成后，得到该RGB-D图像对应的抓取质量特征图的真值/>宽度特征图的真值/>第一角度特征图的真值/>和第二角度特征图的真值/>

上述抓取检测卷积神经网络的训练过程采用Adam优化器，其损失函数如公式(1)所示：

采用本发明能够提高抓取检测的性能，为服务机器人在办公、家居等环境下的抓取检测提供技术支持，实现较好的技术效果。

本发明第二实施例的一种基于注意力机制和孪生反卷积的服务机器人抓取检测***，如图3所示，包括：图像获取模块100、物体检测模块200、尺寸调整模块300、编码模块400、精修模块500、解码模块600、抓取检测模块700；

所述图像获取模块100，配置为服务机器人通过视觉传感器获取包含目标物体的原始彩色图像和原始深度图像；

所述物体检测模块200，配置为基于所述原始彩色图像，通过基于深度学习的物体检测方法获取目标物体的边界框，并将所述边界框在所述原始深度图像、所述原始彩色图像中的对应区域作为第一深度图像区域、第一彩色图像区域；

所述尺寸调整模块300，配置为将所述第一深度图像区域、所述第一彩色图像区域分别调整至设定的尺寸，作为第二深度图像区域、第二彩色图像区域；

所述编码模块400，配置为将所述第二深度图像区域、所述第二彩色图像区域沿通道方向拼接起来，输入抓取检测卷积神经网络的编码器，得到第一特征图；

所述精修模块500，配置为通过所述抓取检测卷积神经网络的特征精修模块对所述第一特征图进行特征精修，得到第二特征图；

所述解码模块600，配置为通过所述抓取检测卷积神经网络的解码器对所述第二特征图进行上采样，得到抓取质量特征图、宽度特征图、第一角度特征图、第二角度特征图；

所述抓取检测模块700，配置为基于所述抓取质量特征图、所述宽度特征图、所述第一角度特征图、所述第二角度特征图得到最佳抓取矩形，进而得到目标物体在所述原始彩色图像中的最佳抓取检测框，实现对目标物体的抓取检测；

需要说明的是，上述实施例提供的基于注意力机制和孪生反卷积的服务机器人抓取检测***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于注意力机制和孪生反卷积的服务机器人抓取检测方法，其特征在于，该方法包括：

其中，所述抓取质量特征图、所述宽度特征图、所述第一角度特征图、所述第二角度特征图中每个像素点的值分别描述了以相应像素点为中心的抓取矩形的抓取质量评价值、宽度、2倍朝向角的余弦值、2倍朝向角的正弦值；

所述抓取检测卷积神经网络包括编码器、特征精修模块、解码器；

所述编码器包括三个级联的标准卷积层；

所述孪生反卷积模块包括两个分支；所述两个分支包括一个原始分支、一个孪生分支；所述原始分支输入为特征图F_in，将F_in的每个通道进行标准反卷积操作，生成特征图F_t；所述孪生分支输入为所有元素值为1的矩阵，将所有元素值为1的矩阵进行反卷积操作，生成权重调整矩阵M_w；

特征图F_t的每一个通道与矩阵M_w进行逐元素矩阵除法操作，并将逐元素矩阵除法操作获取的结果经卷积层进行通道维数调整，得到特征图F_out，作为孪生反卷积模块的输出；

对所述第一特征图进行特征精修，得到第二特征图，其方法为：

步骤S501，利用交叉-幅度注意力对所述第一特征图进行处理，得到交叉-幅度注意力特征图：

AVG_h和AVG_w通过矩阵乘法生成平均交叉特征图F_avg；

MAX_h和MAX_w通过矩阵乘法生成最大交叉特征图F_max；

将A_cross和A_amp沿通道方向进行拼接，并将拼接结果进行标准卷积处理，获得注意力图A_fuse；将A_fuse与所述第一特征图中每个通道的特征图进行逐元素的矩阵乘法，获得交叉-幅度注意力特征图；

2.根据权利要求1所述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法，其特征在于，基于所述抓取质量特征图、所述宽度特征图、所述第一角度特征图、所述第二角度特征图得到最佳抓取矩形，进而得到目标物体在所述原始彩色图像中的最佳抓取检测框，其方法为：

综合u^*、v^*、θ^*、w^*和h^*，得到最佳抓取矩形；

3.根据权利要求2所述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法，其特征在于，所述抓取检测卷积神经网络的损失函数为：

4.一种基于注意力机制和孪生反卷积的服务机器人抓取检测***，其特征在于，该***包括：图像获取模块、物体检测模块、尺寸调整模块、编码模块、精修模块、解码模块、抓取检测模块；

所述编码器包括三个级联的标准卷积层；

AVG_h和AVG_w通过矩阵乘法生成平均交叉特征图F_avg；

MAX_h和MAX_w通过矩阵乘法生成最大交叉特征图F_max；

5.一种存储装置，其中存储有多条程序，其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法。

6.一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于注意力机制和孪生反卷积的服务机器人抓取检测方法。