CN111523486B - 一种基于改进CenterNet的机械臂抓取检测方法 - Google Patents

一种基于改进CenterNet的机械臂抓取检测方法 Download PDF

Info

Publication number
CN111523486B
CN111523486B CN202010335287.9A CN202010335287A CN111523486B CN 111523486 B CN111523486 B CN 111523486B CN 202010335287 A CN202010335287 A CN 202010335287A CN 111523486 B CN111523486 B CN 111523486B
Authority
CN
China
Prior art keywords
predicted
grabbing
neural network
frame
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010335287.9A
Other languages
English (en)
Other versions
CN111523486A (zh
Inventor
王勇
陈荟西
冯雨齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jiulai Technology Co ltd
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202010335287.9A priority Critical patent/CN111523486B/zh
Publication of CN111523486A publication Critical patent/CN111523486A/zh
Application granted granted Critical
Publication of CN111523486B publication Critical patent/CN111523486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进CenterNet的机械臂抓取检测方法,将待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,第一卷积神经网络输出抓取框预测中心点坐标,第二卷积神经网络输出抓取框预测偏移向量,第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量;基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息。本发明首次引入候选抓取框预测中心点检测的思想到机械臂的到抓取检测中,采用目标检测中的CenterNet网络模型,该模型不需要设置大量的超参数,使得检测更加简单,提高了机械臂抓取检测的检测速率已经对应的神经网络训练的效率。

Description

一种基于改进CenterNet的机械臂抓取检测方法
技术领域
本发明属于机器视觉技术领域,具体涉及一种基于改进CenterNet的机械臂抓取检测方法。
背景技术
近年来,随着计算机技术的发展,计算机视觉作为人工智能的一个重要研究领域,已经广泛应用于各行各业,其中基于视觉的机械臂抓取也逐渐成为当前的一个研究热点。在机械臂抓取任务中,主要有传统方法抓取和基于计算机视觉的抓取两种。传统一般是采用人工示教的方式,如手掰机械臂,使机械臂到某个固定位置进行抓取。由于抓取位姿凭靠的使记忆且机械臂自身没有感知能力,因而在执行任务时容易受到外界环境中许多不确定因素的影响。计算机视觉解决机械臂抓取问题的通常做法是,首先利用相机等采集设备对目标进行采样,然后结合模式识别、图像处理等方法分析和处理得到目标物体的空间位置和姿态等有效信息,最后利用所得信息使机械臂完成抓取动作。深度学习应用于机械臂抓取任务中的优势在于不需使用者预先选定提取何种特征,而是采用一种通用的学习过程使模型从大规模数据中学习进而学得目标具备的特征。
在深度学习的目标检测算法中,基于Anchor-based的方法使得one-stage算法性能能够挑战two-stage。同样在抓取检测中Anchor-based方法能借助预先设置的先验信息提升检测效果。在抓取检测中采用Anchor box的先验机制,可以降低了直接进行回归计算的难度。定向Anchor box先验机制,合理引入了抓取检测中旋转角度参数的先验信息,提高了检测的正确率。但Anchor-based方法严重增加了超参数的数量以及网络的复杂度,从而降低了训练的效率和检测的速率。
因此,如何提高机械臂抓取检测的检测速率已经对应的神经网络训练的效率,成为了本领域技术人员急需解决的问题。
发明内容
针对现有技术中存在的上述不足,本发明实际需要解决的问题是:如何提高机械臂抓取检测的检测速率已经对应的神经网络训练的效率。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于改进CenterNet的机械臂抓取检测方法,包括如下步骤:
S1、获取待检测图像对应的RGB图像及深度图像;
S2、对RGB图像及深度图像进行特征融合生成RGD图像;
S3、提取所述RGD图像的特征并生成待预测特征图;
S4、将所述待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,第一卷积神经网络输出抓取框预测中心点坐标,第二卷积神经网络输出抓取框预测偏移向量,第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量,其中,第一卷积神经网络对待预测特征图进行预测,得到中心点热力图,将中心点热力图中值大于预设阈值的像素点作为候选抓取框预测中心点,将值最大的候选抓取框预测中心点作为抓取框预测中心点;
S5、基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息。
优选地,步骤S3包括:
S301、提取所述RGD图像的特征生成第一特征图;
S302、将第一特征图降维得到权重图;
S303、将权重图与第一特征图按对应的像素点相乘后再与第一特征图相加,得到待预测特征图。
优选地,抓取框信息包括抓取框中心点坐标x'及y'、抓取框尺寸w'及h'、抓取框旋转角度θ',步骤S5中:
Figure GDA0003573043840000021
Figure GDA0003573043840000022
Figure GDA0003573043840000023
Figure GDA0003573043840000024
Figure GDA0003573043840000025
式中,
Figure GDA0003573043840000026
Figure GDA0003573043840000027
为抓取框预测中心点坐标,
Figure GDA0003573043840000028
Figure GDA0003573043840000029
Figure GDA00035730438400000210
Figure GDA00035730438400000211
对应的预测偏移量,
Figure GDA00035730438400000212
Figure GDA00035730438400000213
为抓取框预测尺寸,
Figure GDA00035730438400000214
为抓取框预测旋转角度,
Figure GDA00035730438400000215
为将
Figure GDA00035730438400000216
限制在(0,1)范围内的激活函数。
优选地,本方法基于训练后的抓取检测模型实现,所述抓取检测模型包括待预测特征图提取模型、第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,在对所述抓取检测模型进行训练时,首先对待预测特征图提取模型进行预训练,再对所述抓取检测模型进行端到端的训练,其中:
第一卷积神经网络的损失函数为L1
Figure GDA0003573043840000031
式中,e=10-6,N为候选抓取框预测中心点个数,α及β均为超参数,
Figure GDA0003573043840000032
为中心点热力图,Y为预处理后的标签。
综上所述,本发明公开了一种基于改进CenterNet的机械臂抓取检测方法,包括如下步骤:S1、获取待检测图像对应的RGB图像及深度图像;S2、对RGB图像及深度图像进行特征融合生成RGD图像;S3、提取所述RGD图像的特征并生成待预测特征图;S4、将所述待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,第一卷积神经网络输出抓取框预测中心点坐标,第二卷积神经网络输出抓取框预测偏移向量,第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量,其中,第一卷积神经网络对待预测特征图进行预测,得到中心点热力图,将中心点热力图中值大于预设阈值的像素点作为候选抓取框预测中心点,将值最大的候选抓取框预测中心点作为抓取框预测中心点;S5、基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息。同现有的Anchor-box与Anchor-free相比,本发明首次引入候选抓取框预测中心点检测的思想到机械臂的到抓取检测中,采用目标检测中的CenterNet网络模型,该模型更关注目标的中心位置,不需要设置大量的超参数,使得检测更加简单,提高了机械臂抓取检测的检测速率已经对应的神经网络训练的效率。
附图说明
图1为本发明公开的一种基于改进CenterNet的机械臂抓取检测方法的流程图;
图2为抓取框示意图;
图3为实现一种基于改进CenterNet的机械臂抓取检测方法的一种具体方式的模型示意图;
图4A至图4L为采用本发明的方法进行抓取检测时的抓取框与标签示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,本发明公开了一种基于改进CenterNet的机械臂抓取检测方法,包括如下步骤:
S1、获取待检测图像对应的RGB图像及深度图像;
S2、对RGB图像及深度图像进行特征融合生成RGD图像;
用深度图像的深度信息替换RGB图像中的B通道融合成RGD图像。
S3、提取所述RGD图像的特征并生成待预测特征图;
S4、将所述待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,第一卷积神经网络输出抓取框预测中心点坐标,第二卷积神经网络输出抓取框预测偏移向量,第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量,其中,第一卷积神经网络对待预测特征图进行预测,得到中心点热力图,将中心点热力图中值大于预设阈值的像素点作为候选抓取框预测中心点,将值最大的候选抓取框预测中心点作为抓取框预测中心点;
本发明在机械臂的抓取检测中引入了关键点检测的思想,与比以往的栅格化思想相比细粒度更高。
S5、基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息。
与目标检测不同的是抓取检测具有方向性,研究人员提出由五维参数(x,y,w,h,θ)组成的抓取矩形来表示物体的待抓取位置,它仅仅在目标检测边界框的基础上加入旋转角度参数。如图2所示,(x,y)表示矩形的中心;w,h分别表示矩形的长和宽,并且w代表夹持器张开的距离,h代表夹持器自身的物理宽度;θ(00~1800)表示矩形相对于水平轴方向的顺时针旋转角度。
CenterNet模型相比其他基于关键点的目标检测模型只需要关注目标的中心位置,并且这种基于Anchor-free的方法不需要设置大量的超参数,使得检测更加简单。而在机械臂的抓取检测中,保证抓取矩形中心位置的准确性是预测一个良好抓取矩形的重要前提,中心位置所产生的误差往往会导致矩形没有意义。所以本发明将对中心位置的预测看作一个关键点估计的问题,对CenterNet模型进行改进使其能适用于抓取检测。
本发明中,可利用提取特征能力更强的Hourglass-104作为提取待预测特征图的骨干网络,在网络输入阶段,将RGB图像和深度图像通过前期特征融合的方式变为RGD图像,经特征提取后形成128×128×256大小的待预测特征图。在预测阶段,一共分为三个部分,并且分别使用三个不同的两层卷积神经网络进行预测,其中第一部分为抓取框预测中心点,输出大小为128×128的中心点热力图,每个像素点的值代表该点的权重,权重大小的范围为[0,1],将权重值超过一定阈值(预设阈值)的像素点作为检测出的关键点(候选抓取框预测中心点),选择权重值最大的点作为最终的抓取框预测中心点;第二部分为关键点偏移量预测,代表候选抓取框预测中心点x和y方向上的偏移,输出大小为128×128×2的向量;第三部分为以每个候选抓取框预测中心点为中心的抓取框的长宽以及旋转角度预测,输出大小为128×128×3的向量。
同现有的Anchor-box与Anchor-free相比,本发明首次引入候选抓取框预测中心点检测的思想到机械臂的到抓取检测中,采用目标检测中的CenterNet网络模型,该模型更关注目标的中心位置,不需要设置大量的超参数,使得检测更加简单,提高了机械臂抓取检测的检测速率已经对应的神经网络训练的效率。
具体实施时,步骤S3包括:
S301、提取所述RGD图像的特征生成第一特征图;
S302、将第一特征图降维得到权重图;
S303、将权重图与第一特征图按对应的像素点相乘后再与第一特征图相加,得到待预测特征图。
在计算机视觉领域,注意力机制通常被引入来进行视觉信息处理。注意力是一种机制或者方法论,并没有严格的数学定义。在神经网络中,注意力机制可以提取图像中的显著性区域,让卷积神经网络将注意力集中在图像的感兴趣区域上,而忽略无关信息。注意力模块通常是一个额外的神经网络,能够硬性选择输入的某些部分,或者给输入的不同部分分配不同的权重。本发明在原有网络的基础上新增一个分支来提取注意力权重值,使网络更加关注图像的重点信息,从而具有更强的预测能力,有利于进行关键点检测以及回归计算。
此时整个模型如图3所示,在网络输入阶段,将RGB图像和深度图像通过前期特征融合的方式变为RGD图像,经特征提取后形成128×128×256大小的第一特征图。在注意力机制阶段,通过一层卷积神经网络将原通道数降维为1,然后对应生成大小为128×128×1的权重图,将权重图与第一特征图按像素点相乘再加上第一特征图,最后输出128×128×256大小的待预测特征图。
令特征提取后输出的第一特征图为A∈Rw×h×c,经过视觉注意力模型后形成的待预测特征图为Z∈Rw×h×c,而A→Z的注意力机制映射计算方法如下式所示:
Figure GDA0003573043840000051
式中,k[m,n]为一个1×1大小的卷积核,m为1,n为1,w为边界框的宽,h为边界框的高,c为关键点的类型数,等于1,而A'∈Rw×h为通过k后输出的特征图,我们使用激活函数Sigmoid直接获取A'的权重图I∈[0,1]W×H,每个像素点的权重大小代表其注意力的强度值,最后I与第一特征图A点乘再加上A得到待预测特征图Z。
具体实施时,抓取框信息包括抓取框中心点坐标x'及y'、抓取框尺寸w'及h'、抓取框旋转角度θ',步骤S5中:
Figure GDA0003573043840000061
Figure GDA0003573043840000062
Figure GDA0003573043840000063
Figure GDA0003573043840000064
Figure GDA0003573043840000065
式中,
Figure GDA0003573043840000066
Figure GDA0003573043840000067
为抓取框预测中心点坐标,
Figure GDA0003573043840000068
Figure GDA0003573043840000069
Figure GDA00035730438400000610
Figure GDA00035730438400000611
对应的预测偏移量,
Figure GDA00035730438400000612
Figure GDA00035730438400000613
为抓取框预测尺寸,
Figure GDA00035730438400000614
为抓取框预测旋转角度,
Figure GDA00035730438400000615
为将
Figure GDA00035730438400000616
限制在(0,1)范围内的激活函数。
中心点热力图为
Figure GDA00035730438400000617
其中W为中心点热力图宽,H为中心点热力图高,尺寸缩放比例R可取值为4,关键点类型数C可取值为1;可将抓取检测看作一个排序问题,只需寻找到一个最优的抓取框;通过寻找中心点热力图
Figure GDA00035730438400000618
的峰值点
Figure GDA00035730438400000619
来确定最大抓取矩形的中心位置,并同时输出用于修正中心位置的偏移量
Figure GDA00035730438400000620
以及矩形的其他参数
Figure GDA00035730438400000621
最终预测的抓取位置(x',y',w',h',θ')时,x',y',w',h'的预测方式和CenterNet中相同;而对于旋转角度θ',经大量实验证明在抓取检测中旋转角度是比长和宽更加难以预测的参数,如果采用直接回归计算的方式会造成很大的误差,所以发明使用激活函数将网络输出值θ'限制在(0,1)范围内,然后再进行转换至[0,180]范围内。
具体实施时,本方法基于训练后的抓取检测模型实现,所述抓取检测模型包括待预测特征图提取模型、第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,在对所述抓取检测模型进行训练时,首先对待预测特征图提取模型进行预训练,再对所述抓取检测模型进行端到端的训练,其中:
第一卷积神经网络的损失函数为L1
Figure GDA00035730438400000622
式中,e=10-6,N为候选抓取框预测中心点个数,α及β均为超参数,
Figure GDA00035730438400000623
为中心点热力图,Y为预处理后的标签。
本发明采用Focal Loss解决中心点热力图上关键点个数与非关键点个数不均衡带来的问题。剩余参数的损失函数,直接利用均方误差进行回归计算。
为了达到更好的检测效果以及减小训练成本,本发明可在目标检测COCO数据集上对Hourglass-104进行预训练,并在此基础上对整个模型进行端到端的训练。
在计算损失时,首先需要对抓取矩形标签进行预处理。对于真实的中心位置p,将其进行下采样得到对应关键点
Figure GDA0003573043840000071
然后每个像素点通过高斯核
Figure GDA0003573043840000072
映射到
Figure GDA0003573043840000073
上,σp表示标准方差,根据实验证明在抓取检测中σp取值为radius较为合理,能达到很好的效果,其中radius为高斯半径,计算方式如下:
Figure GDA0003573043840000074
其中w,h分别为抓取框的长和宽,而λ为康奈尔抓取数据集评估中的IOU阈值,可取值为0.25。
本发明使用五倍交叉验证的方式对本发明公开的技术方案的效果进行评估。其中对于训练集和测试集的划分存在两种不同的方式,分别为图像分割和对像分割。
图像分割是指将数据集中的所有图像按五折随机划分,训练集和测试集的图像比例分别为4:1。这有助于评估模型对不同位置和姿态的物体检测的性能。
对像分割是指将数据集中的所有对象实例按五折随机划分,训练集和测试集的对象比例分别为4:1。这有助于评估模型对没见过对象检测的性能。
并且按照康奈尔抓取数据集上的矩形度量标准对结果进行评估:如果预测出的抓取矩形G与任意一个正矩形标签G'同时满足以下两个条件,则认为该矩形是一个正确的抓取位置。
|Gθ-G'θ|<300
Figure GDA0003573043840000075
其中|Gθ-G'θ|<300为预测矩形与正矩形标签的角度大小相差小于300。条件
Figure GDA0003573043840000076
为预测的矩形与正矩形标签的Jaccard相似系数大于25%。
表1显示了本发明与方法分别在图像分割和对象分割上的抓取检测结果。
Figure GDA0003573043840000081
本发明中分别给出了模型中无注意力机制和有注意力机制的检测结果。如果不加入注意力机制,在图像分割和对象分割上的正确率分别为97.7%,94.8%。而加入注意力机制的结果为98.3%,96.7%,分别提高了0.6%,1.9%。
方法1至5提出的模型均采用Anchor-free的方法,可以看出本发明的方法(包括注意力机制)在准确率上,相比方法1中的模型分别大幅度提高了24.4%,22.1%;相比方法2中的模型提高了10.3%,9.6%;相比方法3中的并行网络结构提高了9.09%,7.74%;相比方法4中的模型提高了11.9%,12%;相比Anchor-free方法中表现最好的方法5提高了4.2%,3.4%,并且本发明的模型满足端到端的训练,结构更加简单。
方法6至方法8采用的是基于Anchor-based的方法,可以看出本发明的方法(包括注意力机制)在准确率上,相比方法6的传统Anchor box机制分别提高了5.1%,7.6%;相比方法7的模型分别提高了2.3%,0.6%;相比方法8提出的表现较好的定向Anchor box机制分别提高了0.6%,0.1%。
实验结果表明,本发明的方法的准确率领先于现有的其他Anchor free模型;而且能超过大部分基于Anchor based的模型,同时减少了大量超参数的设置。
此外,如图4A至图4L所示,本发明对检测的部分结果进行了可视化,其中边框为浅色的矩形是给定目标的正矩形标签,边框为深色的矩形是由关键点检测中置信度最高的点以及该点对应的其他参数组成的抓取矩形。可以采用本发明的方法,检测结果几乎与标签完全重合。
方法1出自Lenz I,Lee H,Saxena A.Deep learning for detecting roboticgrasps[J].The International Journal of Robotics Research,2015,34(4-5):705-724.
方法2出自Redmon J,Angelova A.Real-time grasp detection usingconvolutional neural networks[C].IEEE International Conference on Roboticsand Automation(ICRA),2015,1316-1322.
方法3出自Kumra S,Kanan C.Robotic grasp detection using deepconvolutional neural networks[J].IEEE International Conference on IntelligentRobots and Systems(IROS),2017,769-776.
方法4出自Chen L,Huang P F,Meng Z J.Convolutional Multi-GraspDetection using Grasp Path for RGBD[J].Robotics and Autonomous Systems,2019,113:94-103.
方法5出自喻群超,尚伟伟,张驰.基于三级卷积神经网络的物体抓取检测[J].机器人,2018,40(5):762-768.
方法6出自Guo D,Sun F,Liu H,et al.A hybrid deep architecture forrobotic grasp detection[C].IEEE International Conference on Robotics andAutomation(ICRA),2017,1609-1614.
方法7出自Chu F J,Xu R,Vela P.Real-world Multi-object,Multi-graspDetection[J].IEEE Robotics and Automation Letters,2018,3,3355-3362.
方法8出自Zhou X,Lan X,Zhang H,et al.Fully Convolutional GraspDetection Network with Anchor Box[C].IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS),2018,7223-7230.
以上仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以做出若干变形和改进,上述变形和改进的技术方案应同样视为落入本申请要求保护的范围。

Claims (2)

1.一种基于改进CenterNet的机械臂抓取检测方法,其特征在于,包括如下步骤:
S1、获取待检测图像对应的RGB图像及深度图像;
S2、对RGB图像及深度图像进行特征融合生成RGD图像;
S3、提取所述RGD图像的特征并生成待预测特征图;步骤S3包括:
S301、提取所述RGD图像的特征生成第一特征图;
S302、将第一特征图降维得到权重图;
S303、将权重图与第一特征图按对应的像素点相乘后再与第一特征图相加,得到待预测特征图;
S4、将所述待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,第一卷积神经网络输出抓取框预测中心点坐标,第二卷积神经网络输出抓取框预测偏移向量,第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量,其中,第一卷积神经网络对待预测特征图进行预测,得到中心点热力图,将中心点热力图中值大于预设阈值的像素点作为候选抓取框预测中心点,将值最大的候选抓取框预测中心点作为抓取框预测中心点;
S5、基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息;抓取框信息包括抓取框中心点坐标x'及y'、抓取框尺寸w'及h'、抓取框旋转角度θ',步骤S5中:
Figure FDA0003573043830000011
Figure FDA0003573043830000012
Figure FDA0003573043830000013
Figure FDA0003573043830000014
Figure FDA0003573043830000015
式中,
Figure FDA0003573043830000016
Figure FDA0003573043830000017
为抓取框预测中心点坐标,
Figure FDA0003573043830000018
Figure FDA0003573043830000019
Figure FDA00035730438300000110
Figure FDA00035730438300000111
对应的预测偏移量,
Figure FDA00035730438300000112
Figure FDA00035730438300000113
为抓取框预测尺寸,
Figure FDA00035730438300000114
为抓取框预测旋转角度,
Figure FDA00035730438300000115
为将
Figure FDA00035730438300000116
限制在(0,1)范围内的激活函数。
2.如权利要求1所述的基于改进CenterNet的机械臂抓取检测方法,其特征在于,本方法基于训练后的抓取检测模型实现,所述抓取检测模型包括待预测特征图提取模型、第一卷积神经网络、第二卷积神经网络及第三卷积神经网络,在对所述抓取检测模型进行训练时,首先对待预测特征图提取模型进行预训练,再对所述抓取检测模型进行端到端的训练,其中:
第一卷积神经网络的损失函数为L1
Figure FDA0003573043830000021
式中,e=10-6,N为候选抓取框预测中心点个数,α及β均为超参数,
Figure FDA0003573043830000022
为中心点热力图,Y为预处理后的标签。
CN202010335287.9A 2020-04-24 2020-04-24 一种基于改进CenterNet的机械臂抓取检测方法 Active CN111523486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010335287.9A CN111523486B (zh) 2020-04-24 2020-04-24 一种基于改进CenterNet的机械臂抓取检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010335287.9A CN111523486B (zh) 2020-04-24 2020-04-24 一种基于改进CenterNet的机械臂抓取检测方法

Publications (2)

Publication Number Publication Date
CN111523486A CN111523486A (zh) 2020-08-11
CN111523486B true CN111523486B (zh) 2022-05-17

Family

ID=71903503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010335287.9A Active CN111523486B (zh) 2020-04-24 2020-04-24 一种基于改进CenterNet的机械臂抓取检测方法

Country Status (1)

Country Link
CN (1) CN111523486B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132013B (zh) * 2020-09-22 2022-07-15 中国科学技术大学 一种车辆关键点检测方法
CN112115911A (zh) * 2020-09-28 2020-12-22 安徽大学 一种基于深度学习的轻量型sar图像目标检测方法
CN112233096B (zh) * 2020-10-19 2021-11-12 哈尔滨市科佳通用机电股份有限公司 一种车辆裙板故障检测方法
CN112461130A (zh) * 2020-11-16 2021-03-09 北京平恒智能科技有限公司 一种胶粘制品视觉检测工具框定位方法
CN112906797B (zh) * 2021-02-25 2024-01-12 华北电力大学 一种基于计算机视觉和深度学***面抓取检测方法
CN112966747A (zh) * 2021-03-04 2021-06-15 北京联合大学 一种基于无锚框检测网络改进的车辆检测方法
CN113642558A (zh) * 2021-08-16 2021-11-12 云南电网有限责任公司电力科学研究院 耐张线夹压接缺陷的x射线图像识别方法及装置
CN114119419A (zh) * 2021-11-29 2022-03-01 阿波罗智联(北京)科技有限公司 图像处理方法、装置、电子设备和存储介质
CN114782827B (zh) * 2022-06-22 2022-10-14 中国科学院微电子研究所 一种基于图像的物体抓取点获取方法和装置
CN115816460B (zh) * 2022-12-21 2023-06-09 苏州科技大学 一种基于深度学习目标检测与图像分割的机械手抓取方法
CN116704017B (zh) * 2023-08-09 2023-11-14 烟台大学 一种基于视觉混合的机械臂位姿检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017038777A (ja) * 2015-08-19 2017-02-23 アイホン株式会社 動作認識装置
CN108010078A (zh) * 2017-11-29 2018-05-08 中国科学技术大学 一种基于三级卷积神经网络的物体抓取检测方法
CN108510062A (zh) * 2018-03-29 2018-09-07 东南大学 一种基于级联卷积神经网络的机器人非规则物体抓取位姿快速检测方法
CN110956222A (zh) * 2019-12-17 2020-04-03 大连理工大学 用于水下目标检测的检测网络的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6546618B2 (ja) * 2017-05-31 2019-07-17 株式会社Preferred Networks 学習装置、学習方法、学習モデル、検出装置及び把持システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017038777A (ja) * 2015-08-19 2017-02-23 アイホン株式会社 動作認識装置
CN108010078A (zh) * 2017-11-29 2018-05-08 中国科学技术大学 一种基于三级卷积神经网络的物体抓取检测方法
CN108510062A (zh) * 2018-03-29 2018-09-07 东南大学 一种基于级联卷积神经网络的机器人非规则物体抓取位姿快速检测方法
CN110956222A (zh) * 2019-12-17 2020-04-03 大连理工大学 用于水下目标检测的检测网络的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A hybrid deep architecture for robotic grasp detection;Di Guo 等;《2017 IEEE International Conference on Robotics and Automation (ICRA)》;20170724;第1609-1614页 *
Dealing with ambiguity in robotic grasping via multiple predictions;Ghazaei G 等;《Dealing with ambiguity in robotic grasping via multiple predictions》;20190525;第38-55页 *
Real-time grasp detection using convolutional neural networks;Joseph Redmon 等Joseph Redmon;《2015 IEEE international conference on robotics and automation (ICRA)》;20150702;第1316-1322页 *
基于RGB-D和深度学习基于深度图像和深度学习的机器人抓取检测算法研究机器人抓取检测;王斌;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190515(第5期);I138-1517 *
基于改进CenterNet的机械臂抓取检测;王勇 等;《中南大学学报(自然科学版)》;20210926;第52卷(第9期);第3242-3250页 *
基于深度学习的机械臂抓取检测算法研究;陈荟西;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20200815(第8期);I140-29 *

Also Published As

Publication number Publication date
CN111523486A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523486B (zh) 一种基于改进CenterNet的机械臂抓取检测方法
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN108010078B (zh) 一种基于三级卷积神经网络的物体抓取检测方法
Qian et al. Grasp pose detection with affordance-based task constraint learning in single-view point clouds
Park et al. Real-time, highly accurate robotic grasp detection using fully convolutional neural network with rotation ensemble module
CN115816460B (zh) 一种基于深度学习目标检测与图像分割的机械手抓取方法
CN112926503B (zh) 一种基于矩形拟合的抓取数据集自动生成方法
Tang et al. Learning collaborative pushing and grasping policies in dense clutter
CN111898566B (zh) 姿态估计方法、装置、电子设备和存储介质
Chen et al. Combining reinforcement learning and rule-based method to manipulate objects in clutter
CN113771027B (zh) 一种基于深度学习的双臂协作抓取方法
CN112288809B (zh) 一种用于多物体复杂场景的机器人抓取检测方法
Wang SGDN: Segmentation-based grasp detection network for unsymmetrical three-finger gripper
CN112199994B (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
CN113762159A (zh) 一种基于有向箭头模型的目标抓取检测方法及***
Wang et al. Unsupervised representation learning for visual robotics grasping
CN115187781B (zh) 一种基于语义分割网络的六自由度抓取检测方法
Li et al. Learning target-oriented push-grasping synergy in clutter with action space decoupling
Lin et al. Target recognition and optimal grasping based on deep learning
CN114211490B (zh) 一种基于Transformer模型的机械臂抓手位姿预测方法
Ouyang et al. Robot grasp with multi-object detection based on RGB-D image
Zhang et al. A novel mapping strategy based on neocortex model: Pre-liminary results by hierarchical temporal memory
CN114049318A (zh) 一种基于多模态融合特征的抓取位姿检测方法
Ito et al. Visualization of focal cues for visuomotor coordination by gradient-based methods: A recurrent neural network shifts the attention depending on task requirements
Zhang et al. Robotic grasp detection using effective graspable feature selection and precise classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230705

Address after: No. 1811, 18th Floor, Building 19, Section 1201, Lushan Avenue, Wan'an Street, Tianfu New District, Chengdu, Sichuan, China (Sichuan) Pilot Free Trade Zone, 610213, China

Patentee after: Sichuan Jiulai Technology Co.,Ltd.

Address before: No. 69 lijiatuo Chongqing District of Banan City Road 400054 red

Patentee before: Chongqing University of Technology

TR01 Transfer of patent right