CN116416444B - 物体抓取点估计、模型训练及数据生成方法、装置及*** - Google Patents

物体抓取点估计、模型训练及数据生成方法、装置及*** Download PDF

Info

Publication number
CN116416444B
CN116416444B CN202111643324.3A CN202111643324A CN116416444B CN 116416444 B CN116416444 B CN 116416444B CN 202111643324 A CN202111643324 A CN 202111643324A CN 116416444 B CN116416444 B CN 116416444B
Authority
CN
China
Prior art keywords
point
grabbing
quality
image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111643324.3A
Other languages
English (en)
Other versions
CN116416444A (zh
Inventor
周韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Guangdong Midea White Goods Technology Innovation Center Co Ltd
Original Assignee
Midea Group Co Ltd
Guangdong Midea White Goods Technology Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd, Guangdong Midea White Goods Technology Innovation Center Co Ltd filed Critical Midea Group Co Ltd
Priority to CN202111643324.3A priority Critical patent/CN116416444B/zh
Priority to PCT/CN2022/135705 priority patent/WO2023124734A1/zh
Publication of CN116416444A publication Critical patent/CN116416444A/zh
Application granted granted Critical
Publication of CN116416444B publication Critical patent/CN116416444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种物体抓取点估计、模型训练及数据生成方法、装置及***,通过基于所述样本物体的3D模型进行抓取点采样并评估采样点的抓取质量,对加载有第一物体的3D模型的模拟场景进行渲染,生成训练用的样本图像及其中像素点的目标抓取质量,作为训练数据对物体抓取点的估计模型进行训练,训练好的模型用于物体抓取点的估计。本公开实施例可以实现样本图像的自动标注,高效、高质量地生成训练数据,并且提高抓取点的估计精度。

Description

物体抓取点估计、模型训练及数据生成方法、装置及***
技术领域
本公开涉及但不限于人工智能技术,具体涉及一种物体抓取点估计、模型训练及数据生成方法、装置及***。
背景技术
在机器人视觉引导应用场景中,机器人视觉***遇到的挑战是需要引导机器人抓取成千上万种不同的库存物品(stock keeping unit,简称SKU)。这些物体通常是***未知的,或者由于种类过于繁多,维护所有SKU的物理模型或者纹理模板成本过高。最简单的例子就是在拆垛应用中,虽然要抓取的物体都是长方形的物体(盒子或者箱子),但是物体的纹理,尺寸等会根据场景的不同而发生变化。因此经典的基于模板匹配的物体定位或识别方案在这类场景中难以应用。在一些电商仓储的应用场景中,很多物体都具有不规则形状,其中最普遍的物体为类盒状物体和类瓶状物体,这些货物堆叠在一块,需要机器人视觉引导***高效的将这些物体从堆叠的状态下一件一件分拣出来,进行后续的扫码或者识别操作并送入到合适的目标料框中。
在这个过程中机器人视觉***如何在没有物体先验知识的情况下根据相机拍摄到的场景,对机器人最合适的抓取点(可以是吸取点但不限于此)进行估计,引导机器人执行物体抓取动作,仍然是需要解决的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本公开一实施例提供了一种物体抓取点估计模型的训练数据的生成方法,包括:
获取样本物体的3D模型,基于所述样本物体的3D模型进行抓取点采样并评估采样点的抓取质量;
对加载有第一物体的3D模型的模拟场景进行渲染,生成训练用的样本图像,所述第一物体是从所述样本物体中选取的;
根据所述第一物体的采样点的抓取质量生成所述样本图像中像素点的目标抓取质量。
本公开一实施例还提供了一种物体抓取点估计模型的训练数据的生成装置,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如本公开任一实施例所述的物体抓取点估计模型的训练数据的生成方法。
本公开上述实施例的方法和装置,实现了对样本图像的自动标注,可以高效、高质量地生成训练数据,避免了人工标注带来的工作量繁重、标注质量不稳定等问题。
本公开一实施例提供了一种物体抓取点的估计模型的训练方法,包括:
获取训练数据,所述训练数据包括样本图像和所述样本图像中像素点的目标抓取质量;
以所述样本图像为输入数据,采用机器学习的方式对物体抓取点的估计模型进行训练,训练时根据所述估计模型输出的样本图像中像素点的预测抓取质量和所述目标抓取质量之间的差值计算损失;
其中,所述估计模型包括采用语义分割网络架构的主干网络和多分支网络,所述多分支网络采用多任务学习网络架构。
本公开一实施例还提供了一种物体抓取点的估计模型的训练装置,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如本公开任一实施例所述的物体抓取点的估计模型的训练方法。
本公开上述实施例的方法和装置,通过训练学习的是2D图像中像素点的抓取质量,相对于直接最优的抓取点的方式,具有更好的精度和稳定性。
本公开一实施例提供了一种物体抓取点的估计方法,包括:
获取包含待抓取物体的场景图像,所述场景图像包括2D图像,或包括2D图像和深度图像;
将所述场景图像输入物体抓取点的估计模型,其中,所述估计模型采用如本公开任一实施例所述的训练方法训练好的估计模型;
根据所述估计模型输出的所述2D图像中像素点的预测抓取质量,确定所述待抓取物体的抓取点的位置。
本公开一实施例还提供了一种物体抓取点的估计装置,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如本公开任一实施例所述的物体抓取点的估计方法。
本公开一实施例还提供了一种机器人视觉***,包括:
相机,设置为拍摄包含待抓取物体的场景图像,所述场景图像包括2D图像,或包括2D图像和深度图像;
控制装置,包括如本公开实施例所述的物体抓取点的估计装置,所述控制装置设置为根据所述相机拍摄的所述场景图像,确定所述待抓取物体的抓取点的位置;及,根据所述抓取点的位置控制机器人执行的抓取动作;
机器人,设置为执行所述抓取动作。
本公开上述实施例的估计方法、装置和机器人视觉***,可以提高物体抓取点估计的准确性,进而提升抓取的成功率。
本公开一实施例还提供了一种非瞬态计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序时被处理器执行时实现如本公开任一实施例所述的物体抓取点估计模型的训练数据的生成方法,或者实现如本公开任一实施例所述的物体抓取点的估计模型的训练方法,或者实现如本公开任一实施例所述的物体抓取点的估计方法。
在阅读并理解了附图和详细描述后,可以明白其他方面。
附图说明
附图用来提供对本公开实施例的理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1是本公开一实施例物体抓取点估计模型的训练数据的生成方法的流程图;
图2是图1中根据采样点的抓取质量生成标注数据的流程图;
图3是本公开一实施例训练数据的生成装置的示意图;
图4是本公开一实施例物体抓取点的估计模型的训练方法的流程图;
图5是本公开一实施例估计模型的网络结构图;
图6是本公开一实施例物体抓取点估计方法的流程图;
图7是本公开一实施例的机器人视觉***的结构示意图。
具体实施方式
本公开描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本公开所描述的实施例包含的范围内可以有更多的实施例和实现方案。
本公开的描述中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本公开中被描述为“示例性的”或者“例如”的任何实施例不应被解释为比其他实施例更优选或更具优势。本文中的“和/或”是对关联对象的关联关系的一种描述,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。“多个”是指两个或多于两个。另外,为了便于清楚描述本公开实施例的技术方案,使用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在描述具有代表性的示例性实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本公开实施例的精神和范围内。
随着深度学习技术的发展,通过训练视觉神经网络模型已经可以完成各类检测(2维物***置和大小估计),分割(像素级物体类别预测或者实例索引预测)等任务,物体抓取点估计也可以基于深度学习框架和适当的训练数据,实现基于数据驱动的抓取点估计方法和装备。
在一种方案中,由相机拍摄了彩色图和深度图之后,使用点云做平面分割或者基于欧氏距离的分割,从而尝试在场景中分割和检测出不同的物体,之后基于分割出的点求取中心点作为抓取点候选,再使用一系列的启发式规则对抓取点候选进行排序,最后引导机器人抓取最优抓取点。同时引入反馈***去记录每一次抓取的成败,如果成功,则使用当下物体作为模板去匹配下一次抓取的抓取点。这种方案的问题在于普通点云分割的性能相对较弱,会有较多的错误抓取点,并且当物体排列紧密的时候,点云分割方案很容易失效。
在另一种方案中,使用深度学习框架,通过手工标注一些有限的数据,标注其抓取点方向和区域从而获得相关训练数据,并基于这些训练数据训练神经网络模型。在***运行过程中,视觉***可以处理、统计和训练集类似的图片,估计出其中的物体抓取点。这种方案的问题在于数据采集和标注成本较高,尤其是在数据标注层面上,抓取点方向和区域较难标注,需要标注员有较强的技术能力,同时标注信息中人为因素较多,标注质量无法***性控制,从而无法产出有***性质量保证的模型。
本公开一实施例提供了一种物体抓取点估计模型的训练数据的生成方法,如图1的,包括:
步骤110,获取样本物体的3D模型,基于所述样本物体的3D模型进行抓取点采样并评估采样点的抓取质量;
样本物体可以是各种盒状物品、瓶类物品,类盒状物体和类瓶状物体,也可以是其他形状的物体。样本物体通常可以从实际要抓取的物品中选取,但并不要求将实际要抓取的物品的种类全部覆盖。通常可以选择要抓取的物品中几何形状具有典型性的物品作为样本物体,但本公开并不要求样本物体必须覆盖所有要抓取的物品的形状,基于模型的泛化能力,训练的模型仍然能对其他形状的物品进行抓取点估计。
步骤120,对加载有第一物体的3D模型的模拟场景进行渲染,生成训练用的样本图像,所述第一物体是从所述样本物体中选取的;
加载的第一物体可以由***从样本物体中随机选取,或者由人工选取,或者根据配置的规则进行选取。选择的第一物体可以包括一种样本物体,也可以包括多种样本物体,可以包括一种形状的样本物体,也可以包括多种形状的样本物体。本实施例对此并不局限。
步骤130,根据所述第一物体的采样点的抓取质量生成所述样本图像中像素点的目标抓取质量。
此处的样本图像中像素点的目标抓取质量,可以是样本图像中部分像素点的目标抓取质量,也可以是样本图像中全部像素点的抓取质量,可以是逐个像素点地加以标注,也可以是对多个像素点的集合如样本图像中包括两个以上像素点的区域加以标注。因为标注的样本图像中像素点的抓取质量是作为训练时的目标数据,因此文中将其称为像素点的目标抓取质量。
本公开实施例先获取样本物体的3D模型,基于3D模型进行抓取点采样和评估采样点的抓取质量,因为3D模型本身的几何形状是精准地,因而可以高质量地完成对抓取质量的评估。将选取的第一物体的3D模型加载生成第一模拟场景后,因为加载时3D模型的位置和姿态是可以跟踪的,因此可以计算出采样点与样本图像中像素点的位置关系,将采样点的抓取质量传递给样本图像中相应的像素点。本公开实施例生成的训练数据包括样本图像和标注数据(包括但不限于所述目标抓取质量),因此本公开实施例实现了对样本图像的自动标注,可以高效、高质量地生成训练数据,避免了人工标注带来的工作量繁重、标注质量不稳定等问题。
在本公开一示例性的实施例中,所述获取样本物体的3D模型,包括:创建或采集所述样本物体的3D模型,通过归一化使得所述样本物体的质心位于所述3D模型的模型坐标系的原点,所述样本物体的主轴与所述模型坐标系中一坐标轴的方向一致。本实施例创建3D模型时,所谓归一化可以体现为统一的建模规则,即将模型坐标系的原点建立在样本物体的质心,并且使模型坐标系中的一坐标轴与物体的主轴方向一致。如果是采集的已经创建好的3D模型,则可以通过对3D模型进行平移和旋转来实现归一化,满足上述质心位于原点,主轴与一坐标轴方向一致的要求。
在本公开一示例性的实施例中,所述基于所述样本物体的3D模型进行抓取点采样,包括:对所述样本物体的3D模型进行点云采样,确定采样点在3D模型中的第一位置和抓取方向并记录;所述第一位置用所述采样点在所述3D模型的模型坐标系中的坐标表示,所述抓取方向根据所述3D模型中所述采样点的法向量确定。本实施例基于3D模型进行点云采样时,可以在样本物体的表面进行均匀采样,对于具体算法并不加以局限,通过适当设置采样点的数目,可以使得样本物体表面的采样点具有适当的密度,避免合适的抓取点被遗漏。在一个示例中,可以将一个采样点的设定邻域范围内所有点拟合的平面的法向量作为该采样点的法向量。
在本公开一示例性的实施例中,所述评估采样点的抓取质量,包括:在使用单一吸盘吸取样本物体的场景下,根据每一采样点的封闭性质量和对抗质量估算该采样点的抓取质量;其中,所述封闭性质量根据吸盘在该采样点位置吸取样本物体且所述吸盘的轴向与该采样点的抓取方向一致的情况下,该吸盘端部与该样本物体表面之间的密闭程度确定,所述对抗质量根据该情况下根据该样本物体的重力力矩和吸盘吸取物体时能够产生的力矩对所述重力力矩的对抗程度确定。
本公开实施例中,使用所述吸盘吸取样本物体时,重力力矩会使得样本物体旋转掉落(样本物体的质量在配置时赋值),而吸盘对样本物体的吸力和吸盘端部与样本物体之间的摩擦力能够提供与所述重力力矩对抗的力矩,以防止样本物体掉落,所述吸力和摩擦力可以作为配置信息或根据配置信息(如吸盘参数、物体材质等)计算得到。因此所述对抗程度即体现了吸取时物体的稳定程度,可以根据相关公式计算。上述封闭性质量和对抗质量可以分别给于评分,再将两者分数之和、或者平均值、或者加权平均值等作为采样点的抓取质量。采样点的密闭性质量和对抗质量是由3D模型的局部几何特性决定的,可以充分地体现物体局部几何信息与抓取点优劣的关系,因此可以实现对采样点的抓取质量的准确评估。
虽然本公开实施例是以单一吸盘吸取物体为例,但本公开不局限于此,对于通过多点吸取,或者通过多点夹紧物体的抓取方式,同样可以根据体现抓取效率、物体稳定性和成功概率的指标来评估采样点的抓取质量。
在本公开一示例性的实施例中,所述模拟场景通过将所述第一物体的3D模型加载到初始场景而得到,所述加载过程包括:
从所述样本物体中选取要加载的第一物体的种类和数量,为所述第一物体的质量赋值;
将所述第一物体的3D模型按随机的位置和姿态加载到所述初始场景中;
使用物理引擎仿真所述第一物体掉落的过程以及最终形成的堆叠状态,得到所述模拟场景;
记录所述第一物体的3D模型在所述模拟场景中的第二位置和姿态。
本公开实施例通过上述加载过程,可以模拟出各种物体堆叠的场景,基于该场景生成的训练数据,使得基于所述训练数据训练的模型适用于物体堆叠的复杂场景下对物体抓取点的估计,解决该复杂场景下物体抓取点难以估计的问题。可以在初始场景中设置模拟的料框,将第一物体的3D模型加载到所述料框,并通过仿真模拟第一物体之间及第一物体与料框之间的碰撞过程,使得最终形成的物体堆叠的模拟场景更接近于真实场景。但该料框并不是必需的。本公开其他实施例中,也可以加载为第一物体有序堆放的模拟场景,这取决于对实际工作场景模拟的需要。
对于同一个初始场景,可以以不同的方式多次加载第一物体以得到多个模拟场景。所述不同的方式如可以是加载的第一物体的种类和/或数量不同,加载时3D模型初始的位置和姿态不同等。
在本公开一示例性的实施例中,所述对所述模拟场景进行渲染,生成训练用的样本图像,包括:对每一模拟场景进行至少两次渲染,得到至少两组训练用的样本图像;其中,每次渲染时,在该模拟场景加入模拟相机、设定光源并为加载的第一物体添加纹理,渲染出的2D图像和深度图像作为一组样本图像;所述多次渲染中的任意两次渲染有以下至少一种参数不同:物体的纹理、模拟相机参数、光线参数。本实施例在渲染图片的过程中对模拟环境进行打光,通过调整模拟相机参数(如内参、位置、角度等)、光线参数(如打光的颜色和强度等),物体的纹理等,可以加强数据随机化程度,丰富样本图像的内容,增加样本图像的数量,从而提升训练数据的质量,进而提高训练好的的估计模型的性能。
在本实施例的一个示例中,所述每次渲染时为加载的第一物体添加纹理,包括:每次渲染时,对加载到该模拟场景中的每一个第一物体,从采集的多种真实纹理中随机选择一种贴到该第一物体的表面;或者,每次渲染时,对加载到该模拟场景中每一种类的第一物体,从采集的多种真实纹理中随机选择一种贴到该种类的第一物体的表面。本示例通过随机化技术弥补真实数据和仿真数据之间的领域差异。所述真实纹理如可以从实际物体图像采集,使用真实纹理的图像等。将选取的纹理随机贴于模拟场景中随机堆叠的第一物体表面,可以渲染出多个带有不同纹理的图像。本公开实施例通过给物体抓取点估计模型提供具有不同纹理但相对一致的几何信息的样本图像,以及根据局部几何信息计算的采样点的抓取质量生成标注信息,可以使得估计模型利用局部几何信息去预测抓取点的抓取质量,从而可以实现模型对于未知物体的泛化能力。
在本公开一示例性的实施例中,所述样本图像包括2D图像和深度图像;所述根据所述第一物体的采样点的抓取质量生成所述样本图像中像素点的目标抓取质量,包括:
对所述渲染出2D图像和深度图像的每一模拟场景处理如下,如图2所示:
步骤210,根据渲染时的模拟相机内参和渲染出的所述深度图像,得到该模拟场景中可见的第一物体的点云;
步骤220,根据目标采样点在3D模型中的第一位置、所述3D模型在该模拟场景中的第二位置和加载后的姿态变化,确定所述目标采样点在所述点云中的位置,所述目标采样点指所述可见的第一物体的采样点;
步骤230,根据所述目标采样点的抓取质量和在所述点云中的位置,确定所述点云中的点的抓取质量并标注为所述2D图像中对应的像素点的目标抓取质量。
根据渲染时的模拟相机内参和深度图像(还可以包括其他信息)得到的可见的第一物体的点云,与根据上述第一位置、第二位置和姿态变化计算出的目标采样点的位置,并不一定是对齐的。而点云上的点与2D图像中的像素点有像素级别的一一对应关系的,目标采样点映射到2D图像中时,不一定对应2D图像中的某一个像素点,有可能落在某几个像素点之间。因而需要将根据目标采样点的抓取质量和在所述点云中的位置来确定所述点云中的点的抓取质量。
在本公开一示例性的实施例中,所述根据所述目标采样点的抓取质量和在所述点云中的位置,确定所述点云中的点的抓取质量,包括:
第一种,对每一目标采样点,将所述点云中与该目标采样点邻近的点的抓取质量确定为该目标采样点的抓取质量;或者
第二种,对所述点云中的点,根据与该点位置邻近的目标采样点的抓取质量插值得到该点的抓取质量;或者
第三种,对每一目标采样点,将所述点云中与该目标采样点邻近的点的抓取质量确定为该目标采样点的抓取质量,确定完所有目标采样点邻近的点的抓取质量后,通过插值得到所述点云中其他点的抓取质量。
本公开实施例提供了多种将目标采样点的抓取质量传递给点云的点的方法。其中,第一种是将目标采样点的抓取质量赋给点云中邻近的点。在一个示例中,该邻近的点可以是点云中距离该目标采样点最近的一个或多个点,如可以根据设定的距离阈值,筛选出点云中到该目标采样点的距离小于所述距离阈值的点,作为与该目标采样点邻近的点。第二种是一种插值方法,点云中的一个点可以根据邻近的多个目标采样点的抓取质量插值得到,插值时,可以采用基于高斯滤波的插值方法,或者根据多个目标采样点各自到该点的距离大小,为多个目标采样点赋予不同的权重,距离越大,权重越小,基于该权重对所述多个目标采样点的抓取质量进行加权平均,得到该点的抓取质量,本实施例也可以采用其他插值方法。与该点邻近的点也可以根据设定的距离阈值来筛选,如果该点只找到一个邻近的目标采样点,可以将该目标采样点的抓取质量赋予该点。第三种则是先确定点云中与目标采样点邻近的点的抓取质量之后,再根据点云中部分点的抓取质量通过插值得到点云中其他点的抓取质量。上述第二种和第三种方法均可以得到点云中所有点的抓取质量,将点云中这些点的抓取质量映射为2D图像中对应像素点的抓取质量后,就可以绘制出2D图像的抓取质量的热力图。但采用第一种方式,只得到点云中部分点的抓取质量,进而通过映射得到2D图像中部分像素点的抓取质量,也是可以的。此时在训练时,只将所述部分像素点的预测抓取质量与目标抓取质量比较,计算损失,进而根据损失优化模型。
在本公开一示例性的实施例中,所述根据所述目标采样点的抓取质量和在所述点云中的位置,确定所述点云中的点的抓取质量之后,所述生成方法还包括:对每一目标采样点,将该目标采样点的抓取方向作为所述点云中与该目标采样点邻近的点的抓取方向,结合所述点云中所述可见的第一物体之间的相对位置关系,在确定与该目标采样点邻近的点处的抓取空间小于所需的抓取空间的情况下,将所述点云中到该目标采样点的距离小于设定距离阈值的点的抓取质量向下调整。本公开实施例考虑到在堆叠状态下各物体的质量较优的抓取点可能因为相邻物体的存在而没有足够的空间来完成抓取操作,因此在确定了点云中点的抓取质量之后,再进行抓取空间的判决,对于受到抓取空间不足影响的点的抓取质量向下调整,具体地可以调整到某一个设定的质量阈值之下,以避免其被选中。
在本公开一示例性的实施例中,所述样本图像包括2D图像,所述生成方法还包括:标注所述2D图像中每一像素点的分类,所述分类包括前景和背景,其中前景即图像中的第一物体。对像素点分类,可以用于训练估计模型区分前景和背景的能力,从输入估计模型的样本图像中准确筛选出处于前景的点(即第一物体上的点),因此只有前景的点才需要进行预测抓取质量的估计。对2D图像点像素点的分类也可以基于对点云上的点的分类来得到。而通过将模拟场景中第一物体与模拟场景中背景之间的边界点映射到所述点云上,就可以确定点云上的点的分类,即是前景的点,还是背景的点。
本公开一实施例还提供了一种物体抓取点估计模型的训练数据的生成方法,包括:
步骤一,收集各类样本物体的3D模型,对3D模型进行归一化,使得模型坐标系的原点置于样本物体的质心,模型坐标系的一坐标轴与样本物体的主轴一致。
可以使用例如立体光刻(STereoLithography,简称STL)等格式的3D模型,通过对3D模型中顶点和面信息的统计,通过求取所有顶点中心点的方式获得样本物体的质心位置。之后将模型坐标系的原点平移至样本物体的质心位置。此外,可以使用主元分析(PCA)方法确认样本物体的主轴方向,之后将样本物体的3D模型旋转,使得模型坐标系的一坐标轴方向与样本物体的主轴同向。由此获得归一化之后的3D模型,其模型坐标系的原点为样本物体的质心,模型坐标系中一坐标轴的方向与样本物体主轴的方向一致。
步骤二,对样本物体的3D模型进行抓取点采样,得到每一采样点的第一位置和抓取方向并记录;
本实施例的采样过程为对物体模型进行点云采样,使用采样后的点云,以固定邻域估计法向量,每一个点及其法向量代表一个采样点。在一个示例中,以单一吸盘吸取物体的场景为例,此时抓取点为吸取点。基于物体现有的顶点,使用体素采样方法或者其他采样方法(例如最远点采样)获得设定数量的采样点。同时使用每一采样点所在的一定范围邻域内所有点估算该采样点的法向量方向。估计法向量的方法可以是使用随机抽样一致算法(Random sample consensus,简称RANSAC)等去拟合采样点邻域中所有点估计出一个平面,平面的法向量近似为该采样点的法向量。
步骤三,对采样点进行吸取质量评估;
在单一吸盘吸取物体的场景下,质量评估过程包括计算吸取时的封闭性质量以及吸取时对重力力矩的对抗质量(需要可以对抗重力力矩从而完成稳定抓取),根据每一采样点的封闭性质量和对抗质量估算该采样点的抓取质量。在一个示例中,针对采用单一吸盘吸取的场景,要评估采样的吸取点(即采样点)是否是一个可以稳定地将样本物体吸取起来的吸取点。
评估包括两个方面,首先是封闭性质量。封闭性质量可以通过如下方式来衡量:将具有设定半径的吸盘的端部近似为一个多边形,将这个多边形通过采样点的抓取点方向投射到3D模型的表面,然后比较投影后的多边形总体边长和原始边长。如果投影后的总体边长较原始边长增大较多则封闭性不好,反之如果变化不大则封闭性较好,该增大程度可以用增大值与原始边长值的比例表示,该比例可以根据其落入的比例区间给出一个相应评分。另一个方面是计算吸盘沿抓取方向(也可称为吸取点方向)在采样点位置吸取样本物体时,对重力力矩的对抗质量。对抗质量可以通过“wrench resistance”的建模方案计算,“wrench”是一个六维向量,前三维是力,后三维是力矩,该六维向量构成的空间为“wrenchspace”,“wrench resistance”表示作用在某个点的力和力矩合成的wrench是否有抵抗能力。如果重力矩可以被包含在吸取力及其摩擦力所产生的力矩所提供的wrench space中,则可以提供稳定吸取,反之则不行。最后,通过将封闭性质量和对抗质量的计算结果分别正则化为0到1之间的分数,并进行求和,从而得到对每一个吸取点的吸取质量评估结果。
步骤四,搭建初始的模拟数据采集场景即初始场景,将从样本物体中选取的多个第一物体加载到该初始模拟场景中,使用物理引擎仿真第一物体的掉落动态和最终的堆叠姿态。
基于可以模拟物体动力学的物理引擎及相关仿真软件。添加一个模拟的料框,让其静态存在于仿真环境中以提供相应的碰撞基础。同时可以将第一物体的3D模型通过随机的位置和姿态加载到仿真环境中,并赋予每个3D模型一定的质量。这样通过物理引擎的模拟,第一物体的3D模型可以通过模拟重力的作用随机掉落在料框中,物理引擎也会同时计算不同第一物体之间的碰撞信息,从而让第一物体形成一个和真实场景非常接近的堆叠状态。基于这样的方案,就在仿真场景中获得了接近真实的随机堆叠的第一物体的第二位置和姿态。
步骤五,根据采样点的抓取质量生成基于所述模拟场景渲染的样本图像的标注数据。
本步骤需要将在3D模型上进行抓取点采样得到的采样点及评估得到的每一采样点的抓取质量,映射到基于堆叠物体的模块场景。由于对模拟场景仿真时可以获取第一物体的3D模型的第二位置和姿态,而采样点的位置是基于3D模型的模型坐标系表示的,那么容易计算出在模拟场景中这些采样点的位置。
为了对模拟场景进行渲染,在仿真环境中的设定位置加入一个模拟相机,使用基于光线追踪的渲染引擎,高效地渲染出堆叠场景中第一物体的2D图像(如纹理图像)和深度图。结合模拟相机内参信息,可以将渲染出的深度图像转换为点云。基于计算出的采样点在模拟场景中的位置以及渲染得到的第一物体的点云,可以确定每一采样点在所属第一物体的点云中的位置。
为了通过领域随机化技术手段弥补真实数据和仿真数据之间的领域差异。本实施例通过采集各类真实纹理(如实际物体图片,某种规则纹理图片等),并将采集的真实纹理随机地贴于模拟环境中随机堆叠的第一物体表面。在基于光线追踪的模拟相机渲染过程中,就可以渲染出带有不同纹理的2D图像。通过给估计模型提供具有不同纹理但像素点的目标抓取质量相同的2D图像,可以驱动估计模型利用物体的局部几何信息去预测像素点的抓取质量,从而可以实现模型对于不同未知物体的泛化能力。
在将采样点的抓取质量传送给点云中的点之前,可以先基于同一第一物体中的采样点的位置对这些采样点的抓取质量做一个高斯滤波。通过求取采样点在点云中邻近的点的方式,使得点云中位于一个采样点的设定邻域范围内的点(即与该采样点邻近的点)可以获得该采样点的抓取质量。而渲染所得的点云和渲染所得的2D图像之间有像素级别的一一对应关系,因此可以将所述邻近的点的抓取质量标注为2D图像中对应像素点的目标抓取质量。在一个示例中,对于2D图像中其他像素点的目标抓取质量,可以根据所述对应像素点的目标抓取质量插值得到。结合采样点的抓取方向和第一物体的点云的局部几何信息(如第一物体之间的相对位置、距离等),可以将抓取空间不足的像素点的抓取质量调低,以便在选择最优抓取点时过滤掉一部分由于碰撞导致的低质量抓取点。需要说明的是,此处对抓取质量的调整也可以针对2D图像中的对应像素点进行。
由此可以获得模拟场景渲染出的2D图像的抓取质量热力图。可选地,将所述抓取质量热力图输出为样本图像的标注数据,但标注数据不一定是热力图的形式,只要包含2D图像中像素点的目标抓取质量的信息即可。以所述抓取质量热力图为标注数据时,训练时可以驱动所述估计模型学习或拟合所述抓取质量热力图。
本公开一实施例还提供了一种物体抓取点估计模型的训练数据的生成装置,如图3所示,包括处理器60以及存储有计算机程序的存储器50,其中,所述处理器60执行所述计算机程序时实现如本公开任一实施例所述的物体抓取点估计模型的训练数据的生成方法。本公开实施例及其他实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。所述处理器可以是通用处理器,如中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。
本公开上述实施例可以具有以下优点:
使用合成数据生成以及合成数据自动标注来替代人工数据采集和标注,可以降低成本,提升自动化程度,而且可以使得数据质量有较高保证,抓取点的标注准确度有较高保证。
在合成数据标注过程中使用物体物理模型(即3D模型)和物体几何信息,基于基础物理学原理进行抓取点质量评估,从而确保抓取点标注合理性。
在合成数据生成过程中使用领域随机化技术,使用纹理随机,光照随机,相机位置随机等方式生成大量合成数据来训练估计模型。从而使得估计模型可以跨越合成数据和真实数据的领域鸿沟,学习到物体的局部几何特征,从而准确完成物体抓取点的估计任务。
本公开一实施例还提供了一种物体抓取点的估计模型的训练方法,如图4所示,包括:
步骤310,获取训练数据,所述训练数据包括样本图像和所述样本图像中像素点的目标抓取质量;
步骤320,以所述样本图像为输入数据,采用机器学习的方式对物体抓取点的估计模型进行训练,训练时根据所述估计模型输出的样本图像中像素点的预测抓取质量和所述目标抓取质量之间的差值计算损失。
本公开实施例估计模型的训练方法学习的是2D图像中像素点的抓取质量,之后再根据2D图像中像素点的预测抓取质量选出最优的抓取点,相对于直接最优的抓取点的方式,具有更好的精度和稳定性。
本公开实施例的机器学习可以是有监督的深度学习,以及非深度学习的机器学习等。
在本公开一示例性的实施例中,所述训练数据按照如本公开任一实施例所述物体抓取点估计模型的训练数据的生成方法生成。
在本公开一示例性的实施例中,所述估计模型的网络架构如图5所示,包括:
主干网络(Backbone)10,采用语义分割网络架构(比如DeepLab,UNet等),设置为从输入的2D图像和深度图像中提取特征;
多分支网络20,采用多任务学习网络架构,设置为基于提取的所述特征进行预测,以输出所述2D图像中像素点的预测抓取质量。
所述一示例中,所述多分支网络(也可称为网络头或检测头)包括:
第一分支网络21学习语义分割信息以区分前景背景,设置为输出所述2D图像中每一像素点的分类置信度,所述分类包括前景和背景;及
第二分支网络23,学习2D图像中像素点的抓取质量信息,设置为输出所述2D图像中根据所述分类置信度确定的分类为前景的像素点的预测抓取质量。例如可以将分类为前景的置信度大于设定置信度阈值的像素点称为分类为前景的像素点。
本示例中涉及到分类,因此所述训练数据中需要包括分类的数据。
本示例中,所述样本图像包括2D图像和深度图像;所述主干网络10和多分支网络20均包含深度通道,其中的卷积层可以采用3D卷积结构。
本示例中,在训练时,第一分支网络21的损失基于所述2D图像中所有像素点的分类损失计算;第二分支网络23的损失基于分类为前景的部分或全部像素点的预测抓取质量与目标抓取质量的差值计算;主干网络10的损失根据第一分支网络21和第二分支网络23的总损失计算。在计算出各个网络的损失后,可以使用梯度下降算法对各网络的参数进行优化,直至损失最小,模型收敛。在训练过程中,也可以对深度图像进行随机方块形遮挡,比如一次遮挡64*64个像素,使得网络可以更好地利用深度图中的结构化信息。
使用训练数据对上述评估模块进行多次迭代训练后,使用验证数据对训练出的估计模型的精度进行验证,验证数据可以用与训练数据相同的方法生成,在估计模型的精度达到要求后,该估计模型训练好,可以使用,如果精度达不到要求,则继续进行训练。使用时输入包含实际的待抓取物体的2D图像和深度图像,输出所述2D图像中像素点的预测抓取质量。
本公开实施例使用基于深度学习原理的多任务学习框架构建抓取点估计模型,可以有效解决简单点云分割方案中错误率高以及无法区分临近物体的问题。
本公开一实施例还提供了一种物体抓取点的估计模型的训练装置,参见图3,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如本公开任一实施例所述的物体抓取点的估计模型的训练方法。
本公开实施例估计模型的训练方法通过像素级别的稠密预测来预测2D图像中像素点的抓取质量。在一个分支上做像素级的前景和背景的分类预测。在另一分支上,可以针对2D图像中分类为前景的每一个像素输出一个抓取质量的预测值也即预测抓取质量。本公开实施例估计模型的主干网络和分支网络均包含深度通道,在输入端,将包含深度通道信息的深度图像输入主干网络,再将深度通道学习到的特征从通道维度方向融合入彩色的2D图像的特征中,并进行逐像素的多任务预测,可以帮助估计模型更好的处理待抓取物体堆叠场景下的抓取点估计任务。
本公开一实施例还提供了一种物体抓取点的估计方法,如图6所示,包括:
步骤410,获取包含待抓取物体的场景图像,所述场景图像包括2D图像,或包括2D图像和深度图像;
步骤420,将所述场景图像输入物体抓取点的估计模型,其中,所述估计模型是采用本公开任一实施例所述的训练方法训练好的估计模型;
步骤430,根据所述估计模型输出的所述2D图像中像素点的预测抓取质量,确定所述待抓取物体的抓取点的位置。
本公开实施例实现相机驱动,待抓取物体的场景图像如2D图像和深度图像,可以通过适配各类工业场景的深度相机拍摄得到。从深度相机获取彩色2D图像和深度图像后将其裁剪并缩放到估计模型输入所要求的图片大小,再输入所述估计模型。
在本公开一示例性的实施例中,根据所述估计模型输出的所述2D图像中像素点的预测抓取质量,确定所述待抓取物体的抓取点的位置,包括:
选取出所述待抓取物体中的预测抓取质量大于设定质量阈值的全部或部分像素点;
对选取出的像素点进行聚类并计算出一个或多个类中心,将所述类中心对应的像素点作为所述待抓取物体的候选抓取点;
基于预定规则对得到的所述候选抓取点排序,根据所述排序将最优的一个候选抓取点确定为所述待抓取物体的抓取点。
在本公开一示例性的实施例中,基于预定规则对得到的所述候选抓取点排序时,可以基于预定的启发式规则进行排序,所述启发式规则例如可以基于候选抓取点相对于相机的距离,吸取点是否在实际的料框中,吸取点是否会带来碰撞等等条件设置,利用这些信息对候选抓取点进行排序,将最优的一个候选抓取点确定为待抓取物体的抓取点。
本公开一实施例还提供了一种物体抓取点的估计装置,参见图3,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如本公开任一实施例所述的物体抓取点的估计方法。
本公开上述实施例基于训练好的估计模型,将相机拍摄的2D图像和深度图像送入估计模型进行前向推理,输出2D图像中像素点的预测评估质量。预测评估质量大于设定质量阈值的像素点如果超过设定的数量,可以将其中设定数量的预测抓取质量最优的像素点如TOP50、TOP100等选出。对选取出的像素点进行聚类并计算出一个或多个类中心后,可以将2D图像中与类中心最近的像素点(可以是一个像素点,也可以是一个区域中的像素点)作为所述候选抓取点。由于采用的估计模型可以达到较好的精度,因此采用本实施例的估计方法和装置可以提高物体抓取点估计的准确性,进而提升抓取的成功率。
本公开一实施例还提供了一种机器人视觉***,如图7所示,包括:
相机1,设置为拍摄包含待抓取物体的场景图像,所述场景图像包括2D图像,或包括2D图像和深度图像;
控制装置2,包括如权利要求20所述的物体抓取点的估计装置,所述控制装置设置为根据所述相机拍摄的所述场景图像,确定所述待抓取物体的抓取点的位置;及,根据所述抓取点的位置控制机器人执行的抓取动作;
机器人3,设置为执行所述抓取动作。
本公开实施例的机器人视觉***可以提高物体抓取点估计的准确性,进而提升抓取的成功率。
本公开一实施例还提供了一种非瞬态计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序时被处理器执行时实现如本公开任一实施例所述的物体抓取点估计模型的训练数据的生成方法,或者实现本公开任一实施例所述的物体抓取点的估计模型的训练方法,或者实现本公开任一实施例所述的物体抓取点的估计方法。
在本公开上述任意一个或多个示例性实施例中,所描述的功能可以硬件、软件、固件或其任一组合来实施。如果以软件实施,那么功能可作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质传输,且由基于硬件的处理单元执行。计算机可读介质可包含对应于例如数据存储介质等有形介质的计算机可读存储介质,或包含促进计算机程序例如根据通信协议从一处传送到另一处的任何介质的通信介质。以此方式,计算机可读介质通常可对应于非暂时性的有形计算机可读存储介质或例如信号或载波等通信介质。数据存储介质可为可由一个或多个计算机或者一个或多个处理器存取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包含计算机可读介质。
举例来说且并非限制,此类计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来以指令或数据结构的形式存储所要程序代码且可由计算机存取的任何其它介质。而且,还可以将任何连接称作计算机可读介质举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令,则同轴电缆、光纤电缆、双纹线、DSL或例如红外线、无线电及微波等无线技术包含于介质的定义中。然而应了解,计算机可读存储介质和数据存储介质不包含连接、载波、信号或其它瞬时(瞬态)介质,而是针对非瞬时有形存储介质。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘或蓝光光盘等,其中磁盘通常以磁性方式再生数据,而光盘使用激光以光学方式再生数据。上文的组合也应包含在计算机可读介质的范围内。
可由例如一个或多个数字信号理器(DSP)、通用微处理器、专用集成电路(ASIC)现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文描述的功能性可提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或并入在组合式编解码器中。并且,可将所述技术完全实施于一个或多个电路或逻辑元件中。
本公开实施例的技术方案可在广泛多种装置或设备中实施,包含无线手机、集成电路(IC)或一组IC(例如,芯片组)。本公开实施例中描各种组件、模块或单元以强调经配置以执行所描述的技术的装置的功能方面,但不一定需要通过不同硬件单元来实现。而是,如上所述,各种单元可在编解码器硬件单元中组合或由互操作硬件单元(包含如上所述的一个或多个处理器)的集合结合合适软件和/或固件来提供。

Claims (19)

1.一种物体抓取点估计模型的训练数据的生成方法,包括:
获取样本物体的3D模型,基于所述样本物体的3D模型进行抓取点采样并评估采样点的抓取质量;
对加载有第一物体的3D模型的模拟场景进行渲染,生成训练用的样本图像,所述第一物体是从所述样本物体中选取的;
根据所述第一物体的采样点的抓取质量生成所述样本图像中像素点的目标抓取质量;
其中,所述样本图像包括2D图像和深度图像;所述根据所述第一物体的采样点的抓取质量生成所述样本图像中像素点的目标抓取质量,包括:
对所述渲染出2D图像和深度图像的每一模拟场景处理如下:
根据渲染时的模拟相机内参和渲染出的所述深度图像,得到该模拟场景中可见的第一物体的点云;
根据目标采样点在3D模型中的第一位置、所述3D模型在该模拟场景中的第二位置和加载后的姿态变化,确定所述目标采样点在所述点云中的位置,所述目标采样点指所述可见的第一物体的采样点;
根据所述目标采样点的抓取质量和在所述点云中的位置,确定所述点云中的点的抓取质量,并将所述点的抓取质量标注为所述2D图像中对应的像素点的目标抓取质量;
所述根据所述目标采样点的抓取质量和在所述点云中的位置,确定所述点云中的点的抓取质量包括:对所述点云中的点,根据与该点位置邻近的目标采样点的抓取质量插值得到该点的抓取质量。
2.根据权利要求1所述的生成方法,其特征在于:
所述获取样本物体的3D模型,包括:创建或采集所述样本物体的3D模型,通过归一化使得所述样本物体的质心位于所述3D模型的模型坐标系的原点,所述样本物体的主轴与所述模型坐标系中一坐标轴的方向一致。
3.根据权利要求1所述的生成方法,其特征在于:
所述基于所述样本物体的3D模型进行抓取点采样,包括:对所述样本物体的3D模型进行点云采样,确定采样点在3D模型中的第一位置和抓取方向并记录;所述第一位置用所述采样点在所述3D模型的模型坐标系中的坐标表示,所述抓取方向根据所述3D模型中所述采样点的法向量确定。
4.根据权利要求1或2或3所述的生成方法,其特征在于:
所述评估采样点的抓取质量,包括:在使用单一吸盘吸取样本物体的场景下,根据每一采样点的封闭性质量和对抗质量估算该采样点的抓取质量;其中,所述封闭性质量根据吸盘在该采样点位置吸取样本物体且所述吸盘的轴向与该采样点的抓取方向一致的情况下,该吸盘端部与该样本物体表面之间的密闭程度确定,所述对抗质量根据该情况下根据该样本物体的重力力矩和吸盘吸取物体时能够产生的力矩对所述重力力矩的对抗程度确定。
5.根据权利要求1所述的生成方法,其特征在于:
所述模拟场景通过将所述第一物体的3D模型加载到初始场景而得到,所述加载过程包括:
从所述样本物体中选取要加载的第一物体的种类和数量,为所述第一物体的质量赋值;
将所述第一物体的3D模型按随机的位置和姿态加载到所述初始场景中;
使用物理引擎仿真所述第一物体掉落的过程以及最终形成的堆叠状态,得到所述模拟场景;
记录所述第一物体的3D模型在所述模拟场景中的第二位置和姿态。
6.根据权利要求1所述的生成方法,其特征在于:
所述对加载有第一物体的3D模型的模拟场景进行渲染,生成训练用的样本图像,包括:对每一模拟场景进行至少两次渲染,得到至少两组训练用的样本图像;其中,每次渲染时,在该模拟场景加入模拟相机、设定光源并为加载的第一物体添加纹理,渲染出的2D图像和深度图像作为一组样本图像;多次渲染中的任意两次渲染有以下至少一种参数不同:物体的纹理、模拟相机参数、光线参数。
7.根据权利要求6所述的生成方法,其特征在于:
所述每次渲染时为加载的第一物体添加纹理,包括:
每次渲染时,对加载到该模拟场景中的每一个第一物体,从采集的多种真实纹理中随机选择一种贴到该第一物体的表面;或者
每次渲染时,对加载到该模拟场景中每一种类的第一物体,从采集的多种真实纹理中随机选择一种贴到该种类的第一物体的表面。
8.根据权利要求1所述的生成方法,其特征在于:
所述根据所述目标采样点的抓取质量和在所述点云中的位置,确定所述点云中的点的抓取质量,还包括:
对每一目标采样点,将该目标采样点的抓取质量确定为所述点云中与该目标采样点邻近的点的抓取质量;或者
对每一目标采样点,将该目标采样点的抓取质量确定为所述点云中与该目标采样点邻近的点的抓取质量,确定完所有目标采样点邻近的点的抓取质量后,通过插值得到所述点云中其他点的抓取质量。
9.根据权利要求8所述的生成方法,其特征在于:
所述根据所述目标采样点的抓取质量和在所述点云中的位置,确定所述点云中的点的抓取质量之后,所述生成方法还包括:对每一目标采样点,将该目标采样点的抓取方向作为所述点云中与该目标采样点邻近的点的抓取方向,结合所述点云中所述可见的第一物体之间的相对位置关系,在确定与该目标采样点邻近的点处的抓取空间小于所需的抓取空间的情况下,将所述点云中到该目标采样点的距离小于设定距离阈值的点的抓取质量向下调整。
10.根据权利要求1所述的生成方法,其特征在于:
所述样本图像包括2D图像,所述生成方法还包括:生成所述2D图像中每一像素点的分类的数据,所述分类包括前景和背景。
11.一种物体抓取点的估计模型的训练方法,包括:
获取训练数据,所述训练数据包括样本图像和所述样本图像中像素点的目标抓取质量;
以所述样本图像为输入数据,采用机器学习的方式对物体抓取点的估计模型进行训练,训练时根据所述估计模型输出的样本图像中像素点的预测抓取质量和所述目标抓取质量之间的差值计算损失;
所述训练数据按照如权利要求1至10中任一所述的生成方法生成。
12.根据权利要求11所述的训练方法,其特征在于:
所述样本图像包括2D图像和深度图像;所述估计模型包括主干网络和多分支网络,其中:
所述主干网络采用语义分割网络架构且包含深度通道,设置为从输入的2D图像和深度图像中提取特征;
所述多分支网络采用多任务学习网络架构且包含深度通道,设置为基于提取的所述特征进行预测,输出所述2D图像中像素点的预测抓取质量。
13.根据权利要求12所述的训练方法,其特征在于:
所述多分支网络包括:
第一分支网络,设置为输出所述2D图像中每一像素点的分类置信度,所述分类包括前景和背景;及
第二分支网络,设置为输出所述2D图像中根据所述分类置信度确定的分类为前景的像素点的预测抓取质量。
14.一种物体抓取点的估计方法,包括:
获取包含待抓取物体的场景图像,所述场景图像包括2D图像,或包括2D图像和深度图像;
将所述场景图像输入物体抓取点的估计模型,其中,所述估计模型采用如权利要求11至13中任一所述的训练方法训练好的估计模型;
根据所述估计模型输出的所述2D图像中像素点的预测抓取质量,确定所述待抓取物体的抓取点的位置;
所述根据所述估计模型输出的所述2D图像中像素点的预测抓取质量,确定所述待抓取物体的抓取点的位置,包括:
选取出所述待抓取物体中的预测抓取质量大于设定质量阈值的全部或部分像素点;
对选取出的像素点进行聚类并计算出一个或多个类中心,将所述类中心对应的像素点作为所述待抓取物体的候选抓取点;
基于预定规则对得到的所述候选抓取点排序,根据所述排序将最优的一个候选抓取点确定为所述待抓取物体的抓取点。
15.一种物体抓取点估计模型的训练数据的生成装置,其特征在于,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的物体抓取点估计模型的训练数据的生成方法。
16.一种物体抓取点的估计模型的训练装置,其特征在于,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如权利要求11至13任一项所述的物体抓取点的估计模型的训练方法。
17.一种物体抓取点的估计装置,其特征在于,包括处理器以及存储有计算机程序的存储器,其中,所述处理器执行所述计算机程序时实现如权利要求14所述的物体抓取点的估计方法。
18.一种机器人视觉***,其特征在于,包括:
相机,设置为拍摄包含待抓取物体的场景图像,所述场景图像包括2D图像,或包括2D图像和深度图像;
控制装置,包括如权利要求17所述的物体抓取点的估计装置,所述控制装置设置为根据所述相机拍摄的所述场景图像,确定所述待抓取物体的抓取点的位置;及,根据所述抓取点的位置控制机器人执行的抓取动作;
机器人,设置为执行所述抓取动作。
19.一种非瞬态计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一所述的物体抓取点估计模型的训练数据的生成方法,或者实现如权利要求11至13中任一所述的物体抓取点的估计模型的训练方法,或者实现如权利要求14所述的物体抓取点的估计方法。
CN202111643324.3A 2021-12-29 2021-12-29 物体抓取点估计、模型训练及数据生成方法、装置及*** Active CN116416444B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111643324.3A CN116416444B (zh) 2021-12-29 2021-12-29 物体抓取点估计、模型训练及数据生成方法、装置及***
PCT/CN2022/135705 WO2023124734A1 (zh) 2021-12-29 2022-11-30 物体抓取点估计、模型训练及数据生成方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111643324.3A CN116416444B (zh) 2021-12-29 2021-12-29 物体抓取点估计、模型训练及数据生成方法、装置及***

Publications (2)

Publication Number Publication Date
CN116416444A CN116416444A (zh) 2023-07-11
CN116416444B true CN116416444B (zh) 2024-04-16

Family

ID=86997564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111643324.3A Active CN116416444B (zh) 2021-12-29 2021-12-29 物体抓取点估计、模型训练及数据生成方法、装置及***

Country Status (2)

Country Link
CN (1) CN116416444B (zh)
WO (1) WO2023124734A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116841914A (zh) * 2023-09-01 2023-10-03 星河视效科技(北京)有限公司 一种渲染引擎的调用方法、装置、设备及存储介质
CN117656083B (zh) * 2024-01-31 2024-04-30 厦门理工学院 七自由度抓取姿态生成方法、装置、介质及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108818586A (zh) * 2018-07-09 2018-11-16 山东大学 一种适用于机械手自动抓取的物体重心检测方法
CN109159113A (zh) * 2018-08-14 2019-01-08 西安交通大学 一种基于视觉推理的机器人作业方法
WO2019037863A1 (en) * 2017-08-24 2019-02-28 Toyota Motor Europe SYSTEM AND METHOD FOR TAG INCREASE IN VIDEO DATA
CN109658413A (zh) * 2018-12-12 2019-04-19 深圳前海达闼云端智能科技有限公司 一种机器人目标物体抓取位置检测的方法
CN111127548A (zh) * 2019-12-25 2020-05-08 深圳市商汤科技有限公司 抓取位置检测模型训练方法、抓取位置检测方法及装置
CN111844101A (zh) * 2020-07-31 2020-10-30 中国科学技术大学 一种多指灵巧手分拣规划方法
CN212553849U (zh) * 2020-05-26 2021-02-19 腾米机器人科技(深圳)有限责任公司 一种物件抓取机械手
CN113034526A (zh) * 2021-03-29 2021-06-25 深圳市优必选科技股份有限公司 一种抓取方法、抓取装置及机器人
CN113297701A (zh) * 2021-06-10 2021-08-24 清华大学深圳国际研究生院 多种类工业零件堆叠场景的仿真数据集生成方法及装置
CN113436293A (zh) * 2021-07-13 2021-09-24 浙江大学 一种基于条件生成式对抗网络的智能抓取图像生成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019045779A1 (en) * 2017-09-01 2019-03-07 The Regents Of The University Of California ROBOTIC SYSTEMS AND METHODS FOR ROBUST STITCHING AND TARGETING OF OBJECTS
CN109598264B (zh) * 2017-09-30 2020-10-16 北京猎户星空科技有限公司 物体抓取方法及装置
CN108058172A (zh) * 2017-11-30 2018-05-22 深圳市唯特视科技有限公司 一种基于自回归模型的机械手抓取方法
US11833681B2 (en) * 2018-08-24 2023-12-05 Nvidia Corporation Robotic control system
CN109523629B (zh) * 2018-11-27 2023-04-07 上海交通大学 一种基于物理仿真的物体语义和位姿数据集生成方法
CN111161387B (zh) * 2019-12-31 2023-05-30 华东理工大学 堆叠场景下合成图像的方法及***、存储介质、终端设备
CN111553949B (zh) * 2020-04-30 2023-05-19 张辉 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019037863A1 (en) * 2017-08-24 2019-02-28 Toyota Motor Europe SYSTEM AND METHOD FOR TAG INCREASE IN VIDEO DATA
CN108818586A (zh) * 2018-07-09 2018-11-16 山东大学 一种适用于机械手自动抓取的物体重心检测方法
CN109159113A (zh) * 2018-08-14 2019-01-08 西安交通大学 一种基于视觉推理的机器人作业方法
CN109658413A (zh) * 2018-12-12 2019-04-19 深圳前海达闼云端智能科技有限公司 一种机器人目标物体抓取位置检测的方法
CN111127548A (zh) * 2019-12-25 2020-05-08 深圳市商汤科技有限公司 抓取位置检测模型训练方法、抓取位置检测方法及装置
CN212553849U (zh) * 2020-05-26 2021-02-19 腾米机器人科技(深圳)有限责任公司 一种物件抓取机械手
CN111844101A (zh) * 2020-07-31 2020-10-30 中国科学技术大学 一种多指灵巧手分拣规划方法
CN113034526A (zh) * 2021-03-29 2021-06-25 深圳市优必选科技股份有限公司 一种抓取方法、抓取装置及机器人
CN113297701A (zh) * 2021-06-10 2021-08-24 清华大学深圳国际研究生院 多种类工业零件堆叠场景的仿真数据集生成方法及装置
CN113436293A (zh) * 2021-07-13 2021-09-24 浙江大学 一种基于条件生成式对抗网络的智能抓取图像生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
xinyue wang ed..Automatic bounding-box-labeling method of occluded objects in virtual image data.ICMIP '20: Proceedings of the 5th International Conference on Multimedia and Image Processing.2020,163-168. *
图像自动标注关键技术研究;臧淼;《中国博士学位论文全文数据库信息科技辑》;1-97页 *

Also Published As

Publication number Publication date
WO2023124734A1 (zh) 2023-07-06
CN116416444A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
Sock et al. Multi-view 6D object pose estimation and camera motion planning using RGBD images
CN116416444B (zh) 物体抓取点估计、模型训练及数据生成方法、装置及***
CN109102547A (zh) 基于物体识别深度学习模型的机器人抓取位姿估计方法
CN112836734A (zh) 一种异源数据融合方法及装置、存储介质
CN108292362A (zh) 用于光标控制的手势识别
Günther et al. Building semantic object maps from sparse and noisy 3d data
Durner et al. Unknown object segmentation from stereo images
US10902264B2 (en) Automatic generation of secondary class annotations
Mitash et al. Scene-level pose estimation for multiple instances of densely packed objects
Wada et al. Instance segmentation of visible and occluded regions for finding and picking target from a pile of objects
Zelener et al. Cnn-based object segmentation in urban lidar with missing points
Dyrstad et al. Grasping virtual fish: A step towards robotic deep learning from demonstration in virtual reality
Madessa et al. Leveraging an instance segmentation method for detection of transparent materials
Mörwald et al. Advances in real-time object tracking: Extensions for robust object tracking with a Monte Carlo particle filter
Lutz et al. Probabilistic object recognition and pose estimation by fusing multiple algorithms
CN112509050B (zh) 一种位姿估计方法、防碰撞抓物方法和装置
Turkoglu et al. Incremental learning-based adaptive object recognition for mobile robots
Pattar et al. Automatic data collection for object detection and grasp-position estimation with mobile robots and invisible markers
Rigual et al. Object detection methods for robot grasping: Experimental assessment and tuning
Luo et al. Transparent object recognition and retrieval for robotic bio-laboratory automation applications
Kasaei et al. An interactive open-ended learning approach for 3d object recognition
Károly et al. Automatic generation and annotation of object segmentation datasets using robotic arm
Martinson Interactive training of object detection without imagenet
Wada et al. Instance Segmentation of Visible and Occluded Regions for Finding and Picking Target from a Pile of Objects
Keaveny Experimental Evaluation of Affordance Detection Applied to 6-DoF Pose Estimation for Intelligent Robotic Grasping of Household Objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant