CN114882214A - 一种基于深度学习从图像预测物体抓取顺序的方法 - Google Patents

一种基于深度学习从图像预测物体抓取顺序的方法 Download PDF

Info

Publication number
CN114882214A
CN114882214A CN202210344226.8A CN202210344226A CN114882214A CN 114882214 A CN114882214 A CN 114882214A CN 202210344226 A CN202210344226 A CN 202210344226A CN 114882214 A CN114882214 A CN 114882214A
Authority
CN
China
Prior art keywords
feature
sequence
objects
grabbing
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210344226.8A
Other languages
English (en)
Inventor
林梓尧
贾奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cross Dimension Shenzhen Intelligent Digital Technology Co ltd
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210344226.8A priority Critical patent/CN114882214A/zh
Publication of CN114882214A publication Critical patent/CN114882214A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习从图像预测物体抓取顺序的方法,包括以下步骤:1)采集无序抓取场景图片;2)使用深度分割网络,从图片中检测所有待抓取物体的检测框和分割掩模;3)将不同分割掩模对应的特征图区域进行池化,使之变成等长的特征向量。同时,将全局的特征图进行特征池化,成为全局特征向量;4)将所有特征掩模对应的特征向量连接上全局的特征向量,使之成为每个物体的特征向量;并将其无序地送入一个特殊的循环神经网络,循环神经网络输出物体的抓取顺序。本发明能够在复杂的堆叠物体场景中预测出合理的抓取顺序,能够加快机械臂对物体的抓取速度并且减少碰撞。在工业场景中以合理的抓取顺序进行物体抓取至关重要。

Description

一种基于深度学习从图像预测物体抓取顺序的方法
技术领域
本发明属于计算机视觉领域。具体涉及一种基于深度学习从图像预测物体抓取顺序的方法。
背景技术
在制造业向智能制造的转型下,如何利用AI技术辅助构建智能功能逐步引起工业界和计算机视觉研究的关注。为了能够在传统制造中逐步利用AI技术代替其中繁琐且需要定制化的环节,不少企业向计算机视觉寻求帮助。在工业制造环节中已经逐步有使用视觉加AI的方式解决一些静态的任务环节,比如缺陷检测和体积测量。在一些涉及到机器人抓取物体的工业任务比如无序抓取和上下料,已经有一些方法尝试用AI恢复物体的抓取姿态作为机器人的输入进行物体抓取。
但是在现实场景中,机器人对环境物体的交互不单单取决于单个目标物体,也受到一些其他目标实例和其它场景物体的影响。比如在一个堆叠的场景中最好先把偏上的物体抓走,再抓底下的物体。为了减少机械臂碰撞,已有方法会尝试使用机械臂防碰撞算法计算避免碰撞的路径。利用视觉技术从场景图片中推测合理的物体抓取顺序,不仅能够在实际抓取过程中减少碰撞,还能够加速整个抓取进程。
现有技术中《Grasp Planning Based On Scene Grasp Ability InUnstructured Environment》中,对基本几何体的场景的抓取进行规划,使得抓取更加避免场景物体的碰撞。该抓取规划是通过物体的可抓取分数进行排序进行的,具有局限性并不适用任意物体。
发明内容
针对如何在物体堆叠的情况下预测合理的物体抓取顺序问题,本发明提出一种在堆叠物体抓取场景下的一种预测物体抓取顺序的方法,同时提出一种用于生成训练数据的手段,以便支持算法的端到端训练。
本发明至少通过如下技术方案之一实现。
一种基于深度学习从图像预测物体抓取顺序的方法,包括以下步骤:
步骤1、使用分割网络检测出图像中所有前景物体,同时对所有前景物体输出分割掩模,保留图像的全局特征图及输出掩模前的物体特征图;
步骤2、使用物体的分割掩模从物体特征图中切出掩模位置的特征图并进行池化得到物体的局部特征向量,对全局特征图进行池化得到全局特征向量,将全局特征向量连接到各个物体的局部特征向量得到每个物体的物体特征;
步骤3、使用循环神经网络作为编码器,将所有物体的物体特征向量序列依次送入编码器,最终得到一个固定长度的特征向量;
步骤4、将步骤3编码后的特征向量作为隐藏特征,随机生成生成输入向量,将隐藏特征向量输入抓取顺序预测器,抓取顺序预测器每一步接收一个定长的输入向量以及一个上一步得出的隐藏特征,并输出一个索引,该索引指向物体特征序列中的某一个特征,该特征对应的物体即为当前步预测的抓取物体,循环预测的步数为检测出的物体数量,最后预测出的索引序列即为物体的抓取顺序。
进一步地,所述分割网络包括二分类器,用于分离出前景物体和背景物体。
进一步地,步骤2具体步骤如下:
21、使用分割网络检测出所有前景物体的掩模Maski,i∈1,2,…N,其中N为分割网络在当前图片检测出的物体数量,并使用前景物体的掩模对预测物体掩模的前一层特征层进行掩码,掩码之后进行特征池化,然后用一个线性网络将特征通道数转换到固定长度的物体局部特征
Figure BDA0003580427040000021
以生成各个物体各自的局部特征向量;
22、对最完整分辨率的全局特征层直接进行特征池化,用另一个线性网络将全局特征转换到固定长度成为场景的全局特征fglobal
23、将物体的局部特征和全局特征连接起来成为物体的特征
Figure BDA0003580427040000022
进一步地,编码器的每一次循环使用一个物体特征作为输入,并对应输出一个隐藏特征
Figure BDA0003580427040000023
将最后一个编码出来的隐藏特征
Figure BDA0003580427040000024
作为物体特征序列的特征编码
Figure BDA0003580427040000025
其中,
Figure BDA0003580427040000026
是上一次编码输出的隐藏特征,
Figure BDA0003580427040000027
为物体的特征,N为物体的总数量,
Figure BDA0003580427040000028
为对所有物体的特征进行编码之后的结果。
进一步地,步骤4包括以下步骤:
41、使用LSTM循环神经网络作为抓取顺序预测器,将步骤3编码后的特征向量作为第一个隐藏特征
Figure BDA0003580427040000029
随机生成第一个输入向量
Figure BDA00035804270400000210
m是固定的输入特征长度,将隐藏特征和输入向量输入抓取顺序预测器;
抓取顺序预测器每一步接受一个隐藏特征
Figure BDA00035804270400000211
和一个输入向量
Figure BDA00035804270400000212
并输出一个输出向量
Figure BDA0003580427040000031
其中j代表当前位于第j次循环即当前在预测第j个抓取目标,
Figure BDA0003580427040000032
是上一次循环所预测出抓取目标对应的特征,当j=1时,表示开始预测的第一步,此时
Figure BDA0003580427040000033
即生成一个随机向量作为输入;
42、对于抓取顺序预测器每一步输出的特征向量,使用PointerNet中的机制,从物体的特征序列中计算出一个索引,将该索引对应的物体作为这个一步的抓取物体;
43、将步骤41~步骤42循环h次,h为检测出的物体的数量,由此得到一个长度为h的索引序列,该索引序列即为物体抓取顺序。
进一步地,所述带标注数据是使用仿真加渲染的方式自动生成大批量带抓取顺序标注的数据,抓取顺序标注的生成方法使用启发式算法,具体的步骤如下:
51、开启一个场景的构建,往仿真器中随机导入n个物体,每个物体复制出m个实例,物体数量和实例数据在每次场景的构建中都随机生成;
52、以仿真器的世界中心为原点,划分p×p的网格,网格每个方形的大小为导入物体的平均直径加上一个固定的常量d;
53、在网格的边缘放置物体,每次从物体实例中随机选取一个实例,先放置在对应的网格中心,并沿z轴向上抬升,然后在xy平面做随机平移,每次给该实例随机赋予一个纹理;
54、重复步骤53直到该网格放置满,接着以同样的中心,同样的大小继续划分(p-2)×(p-2)的网格;
56、重复步骤53-步骤54直到放置满三层;如果实例数量不足或者其他条件不满足,则中止场景构建并进入下一个阶段,最后产生的场景呈现悬空金字塔样式的形状;
57、以世界坐标原点为球的原点,在z轴正方向生成一个半球面,在球面上均匀采样o个位置用来假设虚拟摄像机;
58、对采样出的相机位置点,逐次渲染,每次相机正对世界原心,同时,每次渲染对灯光和物体表面的材质做随机化扰动,然后渲染出图像;
59、对遮挡超过设定比例的物体进行滤除。
进一步地,所述带标注数据是使用相机在多个角度下采集堆叠场景的RGB图像,并使用已训练的分割网络检测物体的物体框,通过人工标注的方式标注物体的抓取顺序。
进一步地,所述带标注数据采用使用仿真渲染方式合成出的图像作为数据,且使用仿真渲染方式合成出的数据自动带标注的,不再需要进行额外的人工标注。
进一步地,所述分割网络在获得图像中物体的分割掩模的同时,能够生成图像的特征图,同时,分割网络能够检测出图像中所有前景物体,同时,在抓取顺序预测阶段使用的PointerNet网络对任意数量的物体进行循环预测,不局限于某一固定物体数量。因此,本发明对于场景中有任意数量的待抓取物体都可以进行有效的抓取顺序预测。
进一步地,在对物体进行特征提取的时候,将物体所在区域的图像特征作为物体的特征,同时还连接一个全局特征,这样得出的特征同时拥有局部和全局的信息,为后续进行抓取顺序的预测提供足够的信息量。
与现有技术相比,本发明取得的有益效果包括:
本发明基于深度学习的方法,利用全局信息与局部信息构建物体与场景的联系,并从中推理出合理的物体抓取顺序。利用该抓取顺序进行堆叠场景的物体抓取,能够减少碰撞已经加速抓取流程。本发明不局限于简单的基本几何体,而是适用任意物体。同时,本发明使用的是端到端算法,不需要进行更多的搜索,简化整个抓取流程。
附图说明
图1为本发明一种基于深度学习从图像预测物体抓取顺序的方法流程图;
图2为本发明一种基于深度学习从图像预测物体抓取顺序的方法架构图;
图3为本实施例构建场景的侧视图;
图4为本实施例生成的图片的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,以下将结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于深度学习从图像预测物体抓取顺序的方法,包括以下步骤:
步骤1、前景物体检测及分割掩模预测:把所有的目标物体,也就是前景物体当成一类物体,背景无关物体当作另一类物体。使用分割网络检测出图像中所有前景物体,同时对所有前景物体输出分割掩模,保留图像的全局特征图mapglobal及输出掩模前的物体特征图
Figure BDA0003580427040000041
7.对于分割网络的使用,用来分离出前景物体和背景物体。这里的分割网络基于现有的分割网络进行改造。主要改变训练方法。由于本发明不需要区分具体的物体类别,只需要检测出所有的感兴趣前景物体。因此,将分割网络的分类头改造成一个二分类器,用来分离前景和背景物体。改造后的分割网络可以在现有的分割数据集上训练,区别是将分割数据集中的所有类似前景物体都划分为前景类,将类似背景物体划分为背景类。也就是用于训练的数据集中的物体类别数量是2。
步骤2、前景物体特征向量的生成:在得到所有前景物体的分割掩模和整张图像的特征图之后,使用物体的分割掩模从物体特征图
Figure BDA0003580427040000051
中切出掩模位置的特征图并进行池化得到物体的局部特征向量,对全局特征图mapglobal进行特征池化得到全局特征向量,将全局特征向量连接到各个物体的局部特征向量得到每个物体的物体特征
Figure BDA0003580427040000052
前景物体的特征向量生成结合了局部特征和全局特征两者。具体步骤如下:
21、使用分割网络检测出所有前景物体的掩模Maski,i∈1,2,…N,并使用该掩模对预测物体掩模的前一层特征层进行掩码,掩码之后进行特征池化,池化之后再用一层线性网络将特征通道数转换到固定长度的物体局部特征
Figure BDA0003580427040000053
这样对各个物体生成各自的局部特征向量;这里的N指分割网络从图像中检测出的物体的数量。
22、对具有最完整分辨率的全局特征层直接进行特征池化,用另一个线性网络将全局特征转换到固定长度成为场景的全局特征fglobal
23、将物体的局部特征和全局特征连接起来成为物体的特征
Figure BDA0003580427040000054
用物体的局部特征加上图像的全局特征,让抓取顺序预测网络更好地捕捉到物体相对于场景及其他物体的位置相对关系。
步骤3、特征编码:使用一个循环神经网络作为编码器,将所有物体的物体特征向量序列依次送入编码网络,最终得到一个固定长度的特征向量。在这里物体的特征序列是无序的,因此选择什么样的顺序输入编码网络并不重要。这里选择循环神经网络作为编码器的原因在于不同的场景包含不同数量的前景物体实例数量。使用循环神经网络可以适应不同的物体数量。
步骤3中的特征编码器使用一个循环神经网络对物体特征序列进行编码。由步骤2得出的物体特征序列
Figure BDA0003580427040000055
即,物体特征序列代表所有物体对应的物体特征的序列。特征编码器每一步使用一个物体特征作为输入,并输出一个隐藏特征
Figure BDA0003580427040000056
将最后一个编码出来的隐藏特征
Figure BDA0003580427040000057
作为物体特征序列的特征编码
Figure BDA0003580427040000061
其中,
Figure BDA0003580427040000062
是上一次编码输出的隐藏特征。将最后一个编码出来的隐藏特征
Figure BDA0003580427040000063
作为物体特征序列的特征编码
Figure BDA0003580427040000064
Figure BDA0003580427040000065
其中,N为物体的总数量,因此,
Figure BDA0003580427040000066
为对所有物体的特征进行编码之后的结果。
步骤4、抓取顺序预测:将步骤3编码后的特征向量作为第一个隐藏特征,随机生成生成第一个输入向量,将第一个隐藏特征和第一个输入向量输入抓取顺序预测器,抓取顺序预测器也是一个循环神经网络,其每一步接收一个定长的输入特征向量以及一个上一步得出的隐藏特征向量,并从物体特征序列中选择一个将其索引输出为当前步所选择的物体,循环预测的步数为检测出的物体数量,最后预测出物体序列的索引序列,该序列即为物体的抓取顺序。具体步骤如下:
41、使用一个循环神经网络作为抓取顺序预测器。该预测器每一步接受一个隐藏特征
Figure BDA0003580427040000067
和一个输入向量
Figure BDA0003580427040000068
其中j代表当前位于第j次循环,也就是当前在预测第j个抓取目标。
Figure BDA0003580427040000069
是上一次循环所预测出抓取目标对应的特征。当j=1时,也就是刚刚开始预测的第一步,此时
Figure BDA00035804270400000610
也即是生成一个随机向量作为输入。同时输出一个输出向量
Figure BDA00035804270400000611
更具体地,为了能够从物体特征序列中逐步输出一个索引,本实施例使用PointerNet作为抓取顺序预测器。
42、将权利要求1中所述的步骤4特征编码之后的序列特征作为物体抓取顺序预测器的第一个隐藏特征
Figure BDA00035804270400000612
同时,生成一个简单的向量作为第一步的输入特征
Figure BDA00035804270400000613
m是固定的输入特征长度。
43、对于预测器每一步输出的特征向量,使用PointerNet中的机制,以一种类似注意力机制的方式,从物体的特征序列中计算出一个索引。将该索引对应的物体作为该步的抓取物体。之所以采用PointerNet作为抓取顺序预测网络,其目的在于1)、物体数量是变化的,不同的场景图像包含不同的物体数量。2)、网络的输出是一个离散值,每个值代表着在该步应该抓取的物体目标。
44、将以上步骤循环h次,h是检测出的物体的数量。由此得到一个长度为h的索引序列,该索引序列即为物体抓取顺序。
步骤5、使用自动合成的带标注数据进行对分割网络和循环神经网络进行训练:利用仿真加渲染合成的数据进行大批量数据训练并使用真实数据优化:为了能够减少人工标注的花费,本发明同时提供一种使用仿真-渲染合成数据的方法自动生成大批量带抓取顺序标注的训练数据。使用仿真引擎构建虚拟的无序抓取物体堆叠场景,其中的物体呈逐步叠加的方式放置,因此可以自动获取抓取顺序的标注;然后使用渲染器在多个角度以及对光照、材质等参数的随机化渲染出大量的带抓取顺序的训练数据。另外的数据从真实场景中使用RGB相机采集图片,并进行人工标注得出符合人类直觉的抓取顺序。同时,对于训练出的基础网络,用人工标注方法得到的真实训练数据进行优化,使得网络更好地泛化到真实的场景图片。
对于训练数据的获取来源于三个方面。一种是使用仿真加渲染的方式自动生成大批量带抓取顺序标注的数据。这里的抓取顺序的标注的生成方法使用简单的启发式算法,具体的步骤如下:
51、开启一个场景的构建
52、往仿真器中随机导入n个物体,每个物体复制出m个实例。这里的物体数量和实例数据在每次场景的构建中都随机生成。
53、以仿真器的世界中心为原点,划分一个p×p的网格。网格每个方形的大小为导入物体的平均直径加上一个固定的常量d。
54、从左到右从上到下放置物体,每次从物体实例中随机选取一个实例,先放置在对应的网格中心,并沿z轴向上抬升一定距离,比如5cm,此距离为需要调整的参数,一般可以从5-10cm中随机采样出一个距离,然后在xy平面做一定半径内的随机平移。每次给该实例随机赋予一个纹理;
55、重复步骤4直到该网格放置满。接着以同样的中心,同样的大小继续划分(p-2)×(p-2)的网格。
56、重复步骤4-5直到放置满三层。如果实例数量不足或者其他条件不满足,则中止场景构建并进入下一个阶段。最后产生的场景呈现一种悬空金字塔样式的形状。图3中给出了本实施例中一个构建场景的侧视图。
57、以世界坐标原点为球的原点,以一定距离为半径,该半径一般与实际场景中相机离目标场景的距离有关,可以设置为在应用场景中,相机位置距离场景中心位置的距离,并以其为中心点,正负扩展0.5米,在这个范围内随机采样一个距离作为最终使用的半径。在z轴正方向生成一个半球面,在球面上均匀采样o个位置用来假设虚拟摄像机。
58、对采样出的相机位置点,逐次渲染,每次相机正对世界原心,同时,每次渲染对灯光和物体表面的材质做一定随机化扰动,然后渲染出图像。比如每次渲染前采样一个0-1的随机数,如果该数小于0.5,也就是一半的概率进行替换。此时,从材质包中随机选取一个材质,将该材质通过仿真器贴到物体表面。材质包可以直接从网上下载,比如cctexture材质包。
59、对遮挡超过一定比例的物体进行滤除。通过对该物体进行单独投影,得出物体的完整分割掩模Maskfull,计算物体在实际渲染图中的可是表面的分割掩模和完整掩模的面积比例:
Figure BDA0003580427040000081
其中Area(·)指分割掩模占据的区域面积,Maskvisib是该物体在实际渲染图中,去除被其余物体遮挡住后的可视化分割掩模。可以把遮挡阈值设置为0.5,当pmask<0.5时,去除该物体,因为该物体被其他物体遮挡过多。
由于物体采用逐次自由落体的放置方式,因此,后放置的物体可以认为应该先抓,于是物体的抓取顺序自动标注。同时,使用渲染器生成的方式,可以计算出物体的边界框和分割掩模。因此,使用该方式得到的数据可以用来训练本发明方法中的整个神经网络。
另一种获取训练数据的方式为,使用真实的相机在多个角度下采集堆叠场景的RGB图像,并使用已提前训练的分割网络检测物体的物体框,通过人工标注的方式标注物体的抓取顺序。
实施例2
如图1所示,本发明基于深度学习从图像预测物体抓取顺序的方法,其步骤包括:
S1、前景物体检测及分割掩模生成:这一步骤从图像中检测出所有的前景物体的掩码,并在这个过程中获得了物体的特征图和场景图像的全局特征图。
具体来说,分割掩模的生成可以使用现有技术中任意的物体分割神经网络,本实施例采用的是MaskRCNN作为分割网络进行分割掩码的预测和特征图的生成。图2中的分割网络使用MaskRCNN的框架进行示例说明。
特殊在于,本方法不对物体进行具体分类,而是将图像中的所有物体分成情景物体类和背景物体类。背景物体类主要包括桌面,地面以及用来放置物体的背景框等。因此,在本方法中使用现有的分割神经网络只需要将分割网络的输出类别设置为2。同时,将训练时的物体的类别ID调整为前景(1)或者背景(0)。
S2、生成物体局部特征及全局特征,将两者进行连接产生物体特征:为了能够让抓取顺序预测网络感知每个物体相对于其他物体以及场景的相对位置关系,本发明在对物体特征生成的过程中融合全局特征和物体的局部特征。
具体来说,对于物体的局部特征,以输出物体分割掩码前的特征图作为特征来源,并覆盖物体的分割掩码,将掩码覆盖部分提取出来。这一步在图2中的标注1中做出图示。对掩码覆盖的特征区域进行特征池化,然后使用一维卷积或者线性层将池化后的特征向量映射成固定长度的特征空间。本实施例将特征映射到维度为256的特征空间,物体局部特征
Figure BDA0003580427040000091
不同维度的特征空间可以适用不同复杂度的场景,因此256在此并不是一个严格要求的数字。可以是其他数字。
对于图像的全局特征,在图2中的标注2中进行图示。从图像最完整分辨率的特征图直接进行全局池化,可以使用常见的池化操作比如平均值池化和最大值池化。本实施例使用最大值池化。对池化后的全局特征同样进行特征映射到一个定长的特征空间。本实施例中依旧将全局特征映射到维度为256的特征空间。即fglobal∈R256.
将每一个物体局部特征
Figure BDA0003580427040000092
连接上全局特征得到物体特征
Figure BDA0003580427040000093
Figure BDA0003580427040000094
在本实施例中,物体特征是一个长度为512的特征向量。其中,fglobal为上一步骤得出的全局特征向量。
S3、物体特征序列用编码器进行特征编码生成物体特征序列的合成特征:从前一步得出物体特征序列
Figure BDA0003580427040000095
其中,N是检测出的前景物体的数量。将该特征序列使用编码器进行编码得出一个融合局部和全局的特征向量。
进一步的,这里的编码器使用循环神经网络。使用循环神经网络是为了能够适应到不同的物体数量。同时,循环神经网络可以对带序列性质的内容进行更好地编码。这里的编码器可以使用各种循环神经网络的变种。在本实施例中使用一个单层的LSTM网络作为编码器。这里的物体特征序列实际上是无序的。在编码器的每一个循环步,从特征序列中随机挑选出一个还未被挑选的特征向量作为编码器的当前步输入。以此循环N次,N是物体的数量。使用第N步输出的隐藏特征作为物体特征序列的合成特征。
S4、物体抓取顺序预测:为了能够从物体的特征序列中逐步挑选要抓取的物体,最终恢复一个物体抓取顺序序列,抓取顺序预测器使用特殊的循环神经网络。更具体地,本实施例使用PointerNet作为顺序预测器。该预测器每一个循环步接收一个隐藏特征
Figure BDA0003580427040000096
和一个输入特征
Figure BDA0003580427040000097
并使用每一步的输出特征
Figure BDA0003580427040000098
与物体特征序列
Figure BDA0003580427040000099
计算物体选择概率分布向量,并从中选择概率最高的索引作为该步的物体输出。其中概率分布向量的计算方法如下:
1.
Figure BDA00035804270400000910
2.pj=softmax(uj),pj∈RN
上述计算中,vT、W1、W2均为网络可学习参数。
Figure BDA0003580427040000101
是预测器每一步的特征输出对物体特征序列的相关系数。预测器的每一步输出可以跟所有的物体特征,也就是整个物体特征序列计算相关系数变成一个相关系数向量。其中,pj是使用softmax函数从相关系数向量中计算出的概率分布。
Figure BDA0003580427040000102
指的是,在pj中的第i个值,也就是
Figure BDA0003580427040000103
代表了第j个循环步,预测的抓取物体i的概率。N是该图像中物体的数量,因此,pj是一个长度为N的向量,也就是pj∈RN.从pj中选择概率最大的索引
Figure BDA0003580427040000104
作为该步选择的物体。同时将该索引加入已被选择的索引池,以便下一个循环不要重复选择该索引。
S5、使用自动合成的带标注的数据进行大规模数据的网络训练:现有的包含物体抓取顺序的数据集较小,因此,如何获得足够的训练数据也是本发明的一部分。使用人工进行标注是获取数据的一种通用方式。在本实施例中,一种通过人工标注获得数据的步骤如下
a)在一个工作范围内,通常是一个物料框或者一个工作台,随机放置2-3种物体的5-20个实例。在上方的不同角度假设摄像机进行图像采集。每摆放一个场景可以采集10-30张图像。
b)使用在其他数据集训练过的分割网络进行前后景物体的检测和分割。
c)人工筛选较准确的检测框,同时由人工对分割掩模进行优化
d)使用人类的专家知识,对检测出的物体进行抓取顺序的标注。
进一步地,本方法使用一种通过仿真、渲染的方式进行更大规模的训练数据生成,具体的步骤如下
1)开启一个场景的构建
2)往仿真器中随机导入n个物体,每个物体复制出m个实例。这里的物体数量和实例数据在每次场景的构建中都随机生成。在本实施例中,n从2-5中采样,m从1-10中采样
3)以仿真器的世界中心为原点,划分一个p×p的网格。本实施例中,p每次从3-7随机选取。网格每个方形的大小为导入物体的平均直径加上一个固定的常量d,本实施例中d设置为5cm。
4)从左到右从上到下放置物体,每次从物体实例中随机选取一个实例,先放置在对应的网格中心,并沿z轴向上抬升一定距离,本实例例抬升的距离从3-8厘米随机采样。然后在xy平面做一定半径内的随机平移。每次给该实例随机赋予一个纹理
5)重复步骤4)直到该网格放置满。接着以同样的中心,同样的大小继续划分(p-2)×(p-2)的网格。
6)重复步骤4)-5)直到放置满三层。如果实例数量不足或者其他条件不满足,则中止场景构建并进入下一个阶段。最后产生的场景呈现一种悬空金字塔样式的形状。图3中给出了本实施例中一个构建场景的侧视图。
7)以世界坐标原点为球的原点,以一定距离为半径,在z轴正方向生成一个半球面,在球面上均匀采样o个位置用来假设虚拟摄像机。这里的o不是一个定值,通常可以取50-200。
8)对采样出的相机位置点,逐次渲染,每次相机正对世界原心,同时,每次渲染对灯光和物体表面的材质做一定随机化扰动,然后渲染出图像。
9)对遮挡超过一定比例的物体进行滤除。在本实施例中,将遮挡超过50%的物体进行滤除。图4给出了生成的一副图片的示例。每个方框上的数字代表着该方框内物体的抓取次序。
10)由于物体采用逐次自由落体的放置方式,因此,后放置的物体可以认为应该先抓,于是物体的抓取顺序自动标注。同时,使用渲染器生成的方式,可以计算出物体的边界框和分割掩模。因此,使用该方式得到的数据可以用来训练本发明方法中的整个神经网络。
实施例3
如图1所示,本发明基于深度学习从图像预测物体抓取顺序的方法,其步骤包括:
S1、前景物体检测及分割掩模生成:这一步骤从图像中检测出所有的前景物体的掩码,并在这个过程中获得了物体的特征图和场景图像的全局特征图。
具体来说,分割掩模的生成可以使用现有技术中任意的物体分割神经网络,本实施例采用的是MaskRCNN物体分割方法。图2中的分割网络使用MaskRCNN的框架进行示例说明。S2、架设相机及构建多个真实场景,对于每个场景,通过不同的相机位置采集图像。大约构建10-30个场景,每个场景在不同的角度下采集25-50张真实图像。使用标注工具,比如LabelMe进行标注。标注类型包括:前后景物体类别、前后景物体检测框、前后景物体分割掩模以及前景物体抓取顺序。
使用在其他数据集上预训练过的MaskRCNN网络,比如在COCO数据集上训练过的MaskRCNN网络,将其主干网络参数固定,同时将网络的类别输出改为2类。使用标注的数据进行分割网络的再训练。
S3、生成物体局部特征及全局特征,将两者进行连接产生物体特征:为了能够让抓取顺序预测网络感知每个物体相对于其他物体以及场景的相对位置关系,本发明在对物体特征生成的过程中融合全局特征和物体的局部特征。
具体来说,对于物体的局部特征,以输出物体分割掩码前的特征图作为特征来源,并覆盖物体的分割掩码,将掩码覆盖部分提取出来。这一步在图2中的标注1中做出图示。对掩码覆盖的特征区域进行特征池化,然后使用一维卷积或者线性层将池化后的特征向量映射成固定长度的特征空间。本实施例将特征映射到维度为256的特征空间,物体局部特征
Figure BDA0003580427040000121
不同维度的特征空间可以适用不同复杂度的场景,因此256在此并不是一个严格要求的数字。可以是其他数字。
对于图像的全局特征,在图2中的标注2中进行图示。从图像最完整分辨率的特征图直接进行全局池化,可以使用常见的池化操作比如平均值池化和最大值池化。本实施例使用最大值池化。对池化后的全局特征同样进行特征映射到一个定长的特征空间。本实施例中依旧将全局特征映射到维度为256的特征空间。即fglobal∈R256.
将每一个物体局部特征
Figure BDA0003580427040000122
连接上全局特征得到物体特征
Figure BDA0003580427040000123
在本实施例中,物体特征是一个长度为512的特征向量。其中,fglobal为上一步骤得出的全局特征向量。
S4、物体特征序列用编码器进行特征编码生成物体特征序列的合成特征:从前一步得出物体特征序列
Figure BDA0003580427040000124
其中,N是检测出的前景物体的数量。将该特征序列使用编码器进行编码得出一个融合局部和全局的特征向量。
进一步的,这里的编码器使用循环神经网络。使用循环神经网络是为了能够适应到不同的物体数量。同时,循环神经网络可以对带序列性质的内容进行更好地编码。这里的编码器可以使用各种循环神经网络的变种。在本实施例中使用一个单层的LSTM循环神经网络作为编码器。这里的物体特征序列实际上是无序的。在编码器的每一个循环步,从特征序列中随机挑选出一个还未被挑选的特征向量作为编码器的当前步输入。以此循环N次,N是物体的数量。使用第N步输出的隐藏特征作为物体特征序列的合成特征。
S5、物体抓取顺序预测:为了能够从物体的特征序列中逐步挑选要抓取的物体,最终恢复一个物体抓取顺序序列,抓取顺序预测器使用特殊的循环神经网络。更具体地,本实施例使用PointerNet作为顺序预测器。该预测器每一个循环步接收一个隐藏特征
Figure BDA0003580427040000131
和一个输入特征
Figure BDA0003580427040000132
并使用每一步的输出特征
Figure BDA0003580427040000133
与物体特征序列
Figure BDA0003580427040000134
计算物体选择概率分布向量,并从中选择概率最高的索引作为该步的物体输出。其中概率分布向量的计算方法如下:
Figure BDA0003580427040000135
pj=softmax(uj),pj∈RN
上述计算中,vT、W1、W2均为网络可学习参数。
Figure BDA0003580427040000136
是预测器每一步的特征输出对物体特征序列的相关系数。预测器的每一步输出可以跟所有的物体特征,也就是整个物体特征序列计算相关系数变成一个相关系数向量。其中,pj是使用softmax函数从相关系数向量中计算出的概率分布。
Figure BDA0003580427040000137
指的是,在pj中的第i个值,也就是
Figure BDA0003580427040000138
代表了第j个循环步,预测的抓取物体i的概率。N是该图像中物体的数量,因此,pj是一个长度为N的向量,也就是pj∈RN.从pj中选择概率最大的索引
Figure BDA0003580427040000139
作为该步选择的物体。同时将该索引加入已被选择的索引池,以便下一个循环不要重复选择该索引。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:包括以下步骤:
步骤1、使用分割网络检测出图像中所有前景物体,同时对所有前景物体输出分割掩模,保留图像的全局特征图及输出掩模前的物体特征图;
步骤2、使用物体的分割掩模从物体特征图中切出掩模位置的特征图并进行池化得到物体的局部特征向量,对全局特征图进行池化得到全局特征向量,将全局特征向量连接到各个物体的局部特征向量得到每个物体的物体特征;
步骤3、使用循环神经网络作为编码器,将所有物体的物体特征向量序列依次送入编码器,最终得到一个固定长度的特征向量;
步骤4、将步骤3编码后的特征向量作为隐藏特征,随机生成生成输入向量,将隐藏特征向量输入抓取顺序预测器,抓取顺序预测器每一步接收一个定长的输入向量以及一个上一步得出的隐藏特征,并输出一个索引,该索引指向物体特征序列中的某一个特征,该特征对应的物体即为当前步预测的抓取物体,循环预测的步数为检测出的物体数量,最后预测出的索引序列即为物体的抓取顺序。
2.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:所述分割网络包括二分类器,用于分离出前景物体和背景物体。
3.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:步骤2具体步骤如下:
21、使用分割网络检测出所有前景物体的掩模Maski,i∈1,2,...N,其中N为分割网络在当前图片检测出的物体数量,并使用前景物体的掩模对预测物体掩模的前一层特征层进行掩码,掩码之后进行特征池化,然后用一个线性网络将特征通道数转换到固定长度的物体局部特征
Figure FDA0003580427030000011
以生成各个物体各自的局部特征向量;
22、对最完整分辨率的全局特征层直接进行特征池化,用另一个线性网络将全局特征转换到固定长度成为场景的全局特征fglobal
23、将物体的局部特征和全局特征连接起来成为物体的特征
Figure FDA0003580427030000012
4.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:编码器的每一次循环使用一个物体特征作为输入,并对应输出一个隐藏特征
Figure FDA0003580427030000013
Figure FDA0003580427030000014
将最后一个编码出来的隐藏特征
Figure FDA0003580427030000015
作为物体特征序列的特征编码
Figure FDA0003580427030000021
其中,
Figure FDA0003580427030000022
是上一次编码输出的隐藏特征,
Figure FDA0003580427030000023
为物体的特征,N为物体的总数量,
Figure FDA0003580427030000024
为对所有物体的特征进行编码之后的结果。
5.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:步骤4包括以下步骤:
41、使用LSTM循环神经网络作为抓取顺序预测器,将步骤3编码后的特征向量作为第一个隐藏特征
Figure FDA0003580427030000025
随机生成第一个输入向量
Figure FDA0003580427030000026
m是固定的输入特征长度,将隐藏特征和输入向量输入抓取顺序预测器;
抓取顺序预测器每一步接受一个隐藏特征
Figure FDA0003580427030000027
和一个输入向量
Figure FDA0003580427030000028
并输出一个输出向量
Figure FDA0003580427030000029
其中j代表当前位于第j次循环即当前在预测第j个抓取目标,
Figure FDA00035804270300000210
是上一次循环所预测出抓取目标对应的特征,当j=1时,表示开始预测的第一步,此时
Figure FDA00035804270300000211
即生成一个随机向量作为输入;
42、对于抓取顺序预测器每一步输出的特征向量,使用PointerNet中的机制,从物体的特征序列中计算出一个索引,将该索引对应的物体作为这个一步的抓取物体;
43、将步骤41~步骤42循环h次,h为检测出的物体的数量,由此得到一个长度为h的索引序列,该索引序列即为物体抓取顺序。
6.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:所述带标注数据是使用仿真加渲染的方式自动生成大批量带抓取顺序标注的数据,抓取顺序标注的生成方法使用启发式算法,具体的步骤如下:
51、开启一个场景的构建,往仿真器中随机导入n个物体,每个物体复制出m个实例,物体数量和实例数据在每次场景的构建中都随机生成;
52、以仿真器的世界中心为原点,划分p×p的网格,网格每个方形的大小为导入物体的平均直径加上一个固定的常量d;
53、在网格的边缘放置物体,每次从物体实例中随机选取一个实例,先放置在对应的网格中心,并沿z轴向上抬升,然后在xy平面做随机平移,每次给该实例随机赋予一个纹理;
54、重复步骤53直到该网格放置满,接着以同样的中心,同样的大小继续划分(p-2)×(p-2)的网格;
56、重复步骤53-步骤54直到放置满三层;如果实例数量不足或者其他条件不满足,则中止场景构建并进入下一个阶段,最后产生的场景呈现悬空金字塔样式的形状;
57、以世界坐标原点为球的原点,在z轴正方向生成一个半球面,在球面上均匀采样o个位置用来假设虚拟摄像机;
58、对采样出的相机位置点,逐次渲染,每次相机正对世界原心,同时,每次渲染对灯光和物体表面的材质做随机化扰动,然后渲染出图像;
59、对遮挡超过设定比例的物体进行滤除。
7.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:所述带标注数据是使用相机在多个角度下采集堆叠场景的RGB图像,并使用已训练的分割网络检测物体的物体框,通过人工标注的方式标注物体的抓取顺序。
8.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:所述带标注数据采用使用仿真渲染方式合成出的图像作为数据,且使用仿真渲染方式合成出的数据自动带标注的。
9.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:所述分割网络在获得图像中物体的分割掩模的同时,能够生成图像的特征图,同时,分割网络能够检测出图像中所有前景物体,同时,在抓取顺序预测阶段使用的PointerNet网络对任意数量的物体进行循环预测。
10.根据权利要求1所述的一种基于深度学习从图像预测物体抓取顺序的方法,其特征在于:在对物体进行特征提取的时候,将物体所在区域的图像特征作为物体的特征。
CN202210344226.8A 2022-04-02 2022-04-02 一种基于深度学习从图像预测物体抓取顺序的方法 Pending CN114882214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210344226.8A CN114882214A (zh) 2022-04-02 2022-04-02 一种基于深度学习从图像预测物体抓取顺序的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210344226.8A CN114882214A (zh) 2022-04-02 2022-04-02 一种基于深度学习从图像预测物体抓取顺序的方法

Publications (1)

Publication Number Publication Date
CN114882214A true CN114882214A (zh) 2022-08-09

Family

ID=82669635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210344226.8A Pending CN114882214A (zh) 2022-04-02 2022-04-02 一种基于深度学习从图像预测物体抓取顺序的方法

Country Status (1)

Country Link
CN (1) CN114882214A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116184892A (zh) * 2023-01-19 2023-05-30 盐城工学院 一种机器人取物的ai识别控制方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116184892A (zh) * 2023-01-19 2023-05-30 盐城工学院 一种机器人取物的ai识别控制方法及***
CN116184892B (zh) * 2023-01-19 2024-02-06 盐城工学院 一种机器人取物的ai识别控制方法及***

Similar Documents

Publication Publication Date Title
CN110837778B (zh) 一种基于骨架关节点序列的交警指挥手势识别方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN114627360B (zh) 基于级联检测模型的变电站设备缺陷识别方法
CN111553949B (zh) 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN110532897A (zh) 零部件图像识别的方法和装置
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及***
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
US11475589B2 (en) 3D pose estimation by a 2D camera
CN114821014B (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN110969660A (zh) 一种基于三维立体视觉和点云深度学习的机器人上料***
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与***
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取***
CN115937774A (zh) 一种基于特征融合和语义交互的安检违禁品检测方法
US11554496B2 (en) Feature detection by deep learning and vector field estimation
CN114549507A (zh) 改进Scaled-YOLOv4的织物瑕疵检测方法
CN104598898B (zh) 一种基于多任务拓扑学习的航拍图像快速识别***及其快速识别方法
CN114119753A (zh) 面向机械臂抓取的透明物体6d姿态估计方法
CN112613478A (zh) 一种面向机器人抓取的数据主动式选择方法
CN114882214A (zh) 一种基于深度学习从图像预测物体抓取顺序的方法
CN113681552B (zh) 一种基于级联神经网络的机器人混杂物体五维抓取方法
CN113139432B (zh) 基于人体骨架和局部图像的工业包装行为识别方法
CN112288809B (zh) 一种用于多物体复杂场景的机器人抓取检测方法
Shah et al. Detection of different types of blood cells: A comparative analysis
CN113496526A (zh) 通过多个2d相机的3d姿态检测
CN115937492B (zh) 一种基于特征识别的变电设备红外图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240228

Address after: 510641 Industrial Building, Wushan South China University of Technology, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou South China University of Technology Asset Management Co.,Ltd.

Country or region after: China

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Applicant before: SOUTH CHINA University OF TECHNOLOGY

Country or region before: China

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240410

Address after: 518057, Building 4, 512, Software Industry Base, No. 19, 17, and 18 Haitian Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Cross dimension (Shenzhen) Intelligent Digital Technology Co.,Ltd.

Country or region after: China

Address before: 510641 Industrial Building, Wushan South China University of Technology, Tianhe District, Guangzhou City, Guangdong Province

Applicant before: Guangzhou South China University of Technology Asset Management Co.,Ltd.

Country or region before: China