CN115393696A

CN115393696A - 具有旋转补偿的对象料箱拾取

Info

Publication number: CN115393696A
Application number: CN202210511061.9A
Authority: CN
Inventors: 汤特; 加藤哲朗
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2021-05-25
Filing date: 2022-05-11
Publication date: 2022-11-25
Also published as: DE102022107228A1; US11875528B2; US20220383538A1; JP2022181174A

Abstract

一种用于识别待被机器人拾取的对象的***和方法。该方法包括使用3D相机来获得对象的2D红‑绿‑蓝(RGB)彩色图像和2D深度图图像，其中深度图图像中的像素被分配识别从相机到对象的距离的值。该方法使用深度学习卷积神经网络来生成多个对象的分割图像，深度学习卷积神经网络执行图像分割过程，图像分割过程从RGB图像提取特征，向像素分配标签，使得分割图像中的对象具有相同的标签，并且使用对象在分割图像中的定向来旋转对象。然后，该方法使用分割图像和深度图图像来识别用于拾取对象的位置，并且在拾取对象时旋转该对象。

Description

具有旋转补偿的对象料箱拾取

技术领域

本公开一般涉及用于识别待被机器人拾取的对象的***和方法，并且更具体地，涉及用于识别待被机器人从多个对象的料箱中拾取的对象(诸如透明对象)的***和方法，其中该方法采用图像分割过程，该图像分割过程使用神经网络来从由相机捕获的图像提取特征以提供提取特征图像，识别提取特征图像中的各个像素的x和y坐标并且识别在分割图像中该多个对象的定向。

背景技术

机器人执行包括拾取和放置操作的多个任务，其中机器人从例如为料箱的一个位置拾取和移动对象至例如为传送带的另一位置。为了识别正从料箱中拾取的对象，一些机器人***采用产生料箱的2D红-绿-蓝(RGB)彩色图像和料箱的2D灰度深度图图像的3D相机，其中在深度图图像中的每个像素具有限定从相机到具体对象的距离的值，即像素越靠近对象其值越低。深度图图像识别到相机视场中点云中的点的距离测量值，其中点云是由某个坐标系限定的数据点的集合，每个点都有x、y和z值。

为此目的，有两种常规类型的点云分析，即无模型点云分析和基于模型的点云分析。无模型点云分析包括识别点云中自相机的法线方向的点簇并相对于彼此分割这些簇，其中每个点云段都被识别为一个对象。基于模型的点云分析包括从对象的CAD模型创建模板，然后在点云中搜索该模板。然而，如果机器人正拾取的对象是透明的，则光会穿过对象传播并且不会从对象表面有效地反射。因此，相机生成的点云并不是对象的有效表示，深度图图像也不可靠，因此不能正确识别对象以进行拾取。

发明内容

以下讨论公开并描述了用于识别待被机器人从多个对象的料箱拾取的对象的***和方法。该方法包括使用3D相机获得该多个对象的2D红-绿-蓝(RGB)彩色图像和2D深度图图像，其中深度图图像中的各个像素被分配识别从相机到该多个对象的距离的值。该方法使用卷积神经网络生成该多个对象的分割图像，该卷积神经网络执行图像分割过程，该图像分割过程从RGB图像提取多个特征，为各个像素分配标签，使得分割图像中的各个对象具有相同的标签，并且确定该多个对象的定向。生成分割图像包括：提供具有不同尺寸且定向于不同方向上的多个边界框；使用滑动窗口模板将所述多个边界框与所提取的多个特征对准；提供包括围绕所述多个对象的边界框的边界框图像；确定对象存在于每个边界框中的概率；及识别在所述多个边界框中每个对象的中心像素。该方法然后使用所述分割图像和所述深度图图像来识别用于拾取所述对象的位置，并且使用所述对象在所述分割图像中的定向来旋转所述对象，其中每次所述机器人从所述多个对象的组拾取对象时，执行获得彩色图像、获得深度图图像、生成分割图像和识别用于拾取所述对象的位置。

结合附图，从以下描述和所附权利要求，本公开的附加特征将变得显而易见。

附图说明

图1是包括从料箱拾取对象的机器人的机器人***的图示；

图2是图1所示的机器人***中的用于从料箱拾取对象的料箱拾取***的示意性框图；

图3是与图2所示的***分离的提供图像分割的分割模块的示意性框图；

图4是图3所示类型的分割模块的示意性框图，该模块也采用对象旋转补偿；以及

图5是采用图4中所示的分割模块并提供对象旋转补偿的图2中所示类型的料箱拾取***的示意性框图。

具体实施方式

本公开的实施例的涉及用于识别待被机器人从多个对象的料箱拾取的对象的***和方法的以下讨论，其中该方法采用图像分割过程，该图像分割过程使用神经网络从RGB图像提取特征以提供提取特征图像，识别提取特征图像中的各个像素的x和y坐标并且识别在分割图像中该多个对象的定向，本质上仅是示例性的，并且决不意图限制本发明或其应用或使用。例如，该***和方法具有用于识别待被机器人拾取的透明对象的应用。然而，该***和方法可以具有其它应用。

图1是机器人***10的图示，该***包括具有末端执行器吸盘14的机器人12，该吸盘被示出从料箱18中拾取例如为透明瓶子的多个对象16。***10旨在代表能够受益于这里的讨论的任何类型的机器人***，其中机器人12可以是适合于该目的任何机器人。3D相机20被定位成获取料箱18的自顶向下图像并且将它们提供给控制机器人12的运动的机器人控制器22。因为该多个对象16可以是透明的，所以控制器22可能不能够依赖于由相机20提供的深度图图像来识别在料箱18中的该多个对象16的位置。在该非限制性实施例中，机器人12可能以特定的定向(例如直立)将该多个对象16放置在传送机24上。

如下面将详细讨论的，机器人控制器22采用允许机器人12拾取该多个对象16而不必依赖于准确的深度图图像的算法。更具体地说，该算法使用来自3D相机20的RGB图像中的像素的不同颜色来执行图像分割过程。图像分割是将标签分配给图像中的每个像素以使得具有相同标签的像素共享某些特性的过程。因此，分割过程预测哪个像素属于该多个对象16中的哪个。

现代图像分割技术可以采用深度学习技术。深度学习是一种特殊类型的机器学习，它通过将某个现实世界环境表示为不断增加的复杂概念的层次结构来提供更好的学习性能。深度学习通常采用一种软件结构，该软件结构包括执行非线性处理的几层神经网络，其中每个连续层接收来自上一层的输出。通常，这些层包括从传感器接收原始数据的输入层、从数据中提取抽象特征的多个隐藏层，以及基于来自隐藏层的提取特征来识别特定事物的输出层。神经网络包括神经元或节点，每个神经元或节点都有一个“权重”，该“权重”乘以节点的输入，以获得某事是否正确的概率。更具体地说，每个节点都有一个权重，该权重是一个浮点数，其与该节点的输入相乘以生成该节点的输出，该输出是输入的某个比例。通过使神经网络在监督处理下分析一组已知数据并通过最小化成本函数以允许网络获得正确输出的最高概率来初始“训练”或设置权重。

图2是料箱拾取***30的示意性框图，该***是机器人***10中的控制器22的一部分，该***操作以从料箱18中拾取该多个对象16。***30从相机20接收料箱18的自顶向下视图的2D RGB图像32和料箱18的自顶向下视图的2D深度图图像34，其中深度图图像34可能不可靠，因为该多个对象16可能是透明的。图像32被提供给执行图像分割过程的分割模块36，其中图像32中的每个像素被分配特定标签并且其中与相同对象16相关联的像素具有相同标签。

图3是与***30分离的模块36的示意框图。RGB图像32被提供给特征提取模块42，该模块执行从图像32中提取重要特征的滤波过程，该滤波过程去除背景和噪声。例如，模块42可以包括从图像32提取梯度、边缘、轮廓、基本形状等的基于学习的神经网络，其中模块42以已知方式提供RGB图像32的提取特征图像44。特征图像44被提供给区域提议模块50，其使用神经网络分析图像44中所识别的特征以确定该多个对象16在图像44中的位置。特别地，模块50包括已训练的神经网络，其提供诸如50到100个的多个不同大小的边界框，即，具有各种长度和宽度的框，这些框被用于识别对象16存在于图像44中的某一位置处的概率。在该实施例中，边界框都是竖直框，这有助于降低模块50的复杂度。区域提议模块50采用本领域技术人员公知的滑动搜索窗口模板，其中包括所有边界框的搜索窗口在特征图像44上移动，例如从图像44的左上到图像44的右下，以寻找识别该多个对象16中的一个的可能存在的特征。

滑动窗口搜索产生包括多个边界框54的边界框图像52，每个边界框包围图像44中的预测对象，其中每次机器人12从料箱18中移除该多个对象16中的一个时，图像52中的边界框54的数量将减少。模块50参数化每个框54的中心位置(x、y)、宽度(w)和高度(h)，并且提供在框54中存在对象16的0％和100％之间的预测置信度值。图像52被提供给二元分割模块56，其使用神经网络估计像素是否属于每个边界框54中的对象16，以消除框54中的不是对象16的一部分的背景像素。图像52中的每个框54中的剩余像素被分配用于特定对象16的值，使得生成通过不同的标记(诸如颜色)来识别对象16的2D分割图像58。所描述的图像分割过程是深度学习掩码R-CNN(卷积神经网络)的改进形式。

然后，2D分割图像58被提供给中心像素模块60，其确定图像58中的哪个分割对象具有作为对象的最高置信度值，并且提供所选对象16的中心像素的x-y坐标。所选对象16的所识别的中心像素连同计算该对象16的中心像素的x-y-z笛卡尔坐标的深度图图像34一起被提供给笛卡尔坐标模块62，其中深度图图像34估计或预测真实世界中的每个像素位置，尽管z深度预测不是非常可靠。然后在抓取位置模块64中使用该对象16的中心像素的x-y-z坐标来识别的x-y-z抓取位置，用于定位吸盘14。所选对象16的中心像素的x-y坐标还被发送到抓取定向模块66，其使用例如本领域技术人员公知的针孔相机模型，基于从相机20到对象16的中心像素的射线方向，确定吸盘14的抓取定向，即，滚动、俯仰和偏航，其中，当吸盘14正拾取对象16时，吸盘的运动将沿着射线方向移动并与射线方向对准。需要确定自相机20起的射线方向，因为深度图图像34不能提供相机20和对象16之间的准确距离。

吸盘14的抓取位置和吸盘14的抓取定向在抓取姿势模块68中组合以提供吸盘14的抓取姿势，其中抓取姿势包括吸盘14的x-y-z坐标和偏航、俯仰和滚动位置以提供吸盘14沿着射线方向到对象16的接近定向。碰撞检查模块70确定抓取姿势是否将使吸盘14沿着所计算的射线方向与料箱18的底部碰撞，其中到料箱18的底部的距离是已知的。如果抓取姿势将引起沿着射线方向与料箱18的碰撞，则在安全缓冲区模块72中创建安全缓冲区以限制机器人12沿着射线方向的移动。

当吸盘14沿着射线方向移动时，它将最终接触正被拾取的对象16。接触检测模块74通过检测真空中的压力差来检测吸盘14已经与对象16接触。机器人12停止其运动，并在拾取模块76处拾取对象16，或者到达缓冲距离，在该缓冲距离处，机器人将不拾取对象16。一旦机器人12拾取并移动了对象16，相机20将拍摄料箱18的下一个不再具有已经被拾取的对象16的图像以拾取下一个对象16。该过程持续直到所有该多个对象16已经被从料箱18中拾取。

上述用于从料箱18拾取该多个对象16的技术仅将图像58中的对象16的中心像素确定为吸盘14抓取对象16的位置，其中机器人12沿着到对象16的该中心点的线移动或者接近对象16以拾取对象16。然而，机器人12不知道对象16围绕该中心点的定向，并且因此一旦该多个拾取对象16，将仅能够以随机定向放置它们。换句话说，分割模块36只识别构成对象16的像素组，而不识别对象16的定向或旋转。然而，可能存在希望以某种方式定向该多个对象16的应用，例如在传送机24上在相同方向上对齐该多个对象16，这将需要机器人12在拾取对象16之后转动或旋转它。对于这些类型的机器人***，不仅需要确定待拾取的对象16的中心，而且还需要确定正被拾取的对象16的定向，使得机器人12可旋转对象16并在机器人12将对象16放置在传送机24上时将其与期望定向对准。因此，所有该多个对象16可在传送机24上在相同方向上对准，或甚至直立地放置在传送机24上。需要注意的是，确定对象16的定向比仅确定对象16的中心需要更多的复杂性，因此需要显著更多的神经网络训练。

图4是分割模块80的示意性框图，分割模块80与分割模块36类似，但还识别正被拾取的对象16的定向，其中与模块36类似的元件由相同的附图标记标识。需要注意的是，图像32可以来自2D相机，其中不需要深度图图像34，并且其中到对象16的距离可以是预先已知的。模块80包括特征提取模块42，其执行如上所述的从图像32提取重要特征的滤波过程，并提供特征图像44。然而，在该实施例中，特征图像44被提供给区域提议模块82，它是比模块50中的神经网络复杂得多的神经网络，例如是复杂的深度学习掩码R-CNN，并且需要显著更多的神经网络训练。特别地，代替使用不同尺寸的若干竖直边界框来识别在图像44中该多个对象16的位置，模块82使用具有不同尺寸，即不同宽度和长度的多个边界框，其中对于每个尺寸的框，提供具有若干定向的边界框，即以许多不同角度旋转，例如0°、30°、45°、90°、120°、150°和180°，且具有不同仰角。因此，对于每个尺寸的边界框，可以存在具有针对该尺寸的不同定向的若干边界框。如上所述，区域提议模块80通过例如从图像44的左上到图像44的右下在特征图像44上移动或滑动包括多个边界框的搜索窗口模板来执行滑动窗口搜索，以将该多个边界框中的一个与特征图像44中的该多个对象16对准，但是由于存在具有不同定向的另外许多的框，区域提议模块82能够预测它在图像44中识别的对象16的定向。模块82的输出是具有示出该多个对象16的定向的多个边界框86的边界框图像84。因此，除了每个框86的中心位置(x、y)、宽度(w)和高度(h)之外，模块82还参数化定向(θ)，并且提供对象16存在于框86中的0％和100％之间的预测置信度值。在该过程中，尽管边界框86是矩形的，但是由于框86的角度，它们紧密地贴合对象16，并且因此不需要由二元分割模块56执行的用于去除背景像素的过程。

图5是图2所示类型的料箱拾取***90的示意性框图，该料箱拾取***采用旋转补偿以允许机器人12在拾取对象16之后将其旋转以处于特定定向，其中与***30相同的元件由相同的附图标记标识。在这个实施例中，模块36被模块80代替。此外，***90包括对象旋转模块92，其从分割模块80接收旋转参数θ，并且一旦机器人12从料箱18拾取选定对象16并且将其升高一定高度以避开其它对象16，将在所有x-y-z方向上使对象16旋转由旋转参数θ确定的期望量。

如本领域技术人员将充分理解的，本文中讨论的用于描述本发明的若干和各种步骤和过程可以指由计算机、处理器或使用电现象来操纵和/或变换数据的其它电子计算设备执行的操作。那些计算机和电子设备可以采用各种易失性和/或非易失性存储器，包括其上存储有可执行程序的非瞬态计算机可读介质，所述可执行程序包括能够由计算机或处理器执行的各种代码或可执行指令，其中存储器和/或计算机可读介质可以包括所有形式和类型的存储器和其它计算机可读介质。

前述讨论仅公开和描述了本发明的示例性实施例。本领域技术人员将容易地从这样的讨论和从附图和权利要求认识到，在不偏离如在所附权利要求中限定的本发明的精神和范围的情况下，可以在其中进行各种改变、修改和变化。

Claims

1.一种用于从多个对象的组中拾取对象的方法，所述方法包括：

使用相机获得所述多个对象的图像；

通过执行图像分割过程来生成所述多个对象的分割图像，所述图像分割过程包括使用神经网络从所述图像中提取多个特征以提供提取特征图像、识别所述提取特征图像中的各个像素的x和y坐标以及识别在所述提取特征图像中所述多个对象的定向；

使用所述分割图像识别用于拾取所述对象的位置；以及

使用在所述分割图像中所述对象的所述定向来旋转所述对象。

2.根据权利要求1所述的方法，其中，所述神经网络是深度学习掩码R-卷积神经网络(CNN)。

3.根据权利要求1所述的方法，其中，生成分割图像包括提供多个边界框，将所述多个边界框与所提取的多个特征对准，以及提供包括围绕所述多个对象的边界框的边界框图像。

4.根据权利要求3所述的方法，其中，所述多个边界框具有各种尺寸，并且每种尺寸的多个边界框被定向在不同方向上。

5.根据权利要求4所述的方法，其中，被定向在不同方向上的相同尺寸的所述多个边界框相对于彼此定向0°、30°、45°、90°、120°、150°和180°。

6.根据权利要求3所述的方法，其中，将所述多个边界框对准包括使用滑动窗口模板。

7.根据权利要求3所述的方法，其中，生成分割图像包括确定对象存在于每个边界框中的概率。

8.根据权利要求1所述的方法，其中，生成分割图像包括向所述分割图像中的各个像素分配标签，使得所述分割图像中的每个对象具有相同的标签。

9.根据权利要求1所述的方法，其中，生成分割图像包括识别在所述多个边界框中每个对象的中心像素，并且其中，识别用于拾取所述对象的位置包括识别在所述分割图像中所述多个对象中的一个的中心像素，并且使用所述中心像素的位置和深度图图像来计算所述中心像素的x-y-z坐标。

10.根据权利要求9所述的方法，其中，识别用于拾取所述对象的位置包括确定用于拾取所述对象的x-y-z抓取位置。

11.根据权利要求9所述的方法，其中，识别用于拾取所述对象的位置包括识别用于拾取所述对象的抓取定向，所述抓取定向由从所述相机到所述中心像素的射线方向限定。

12.根据权利要求11所述的方法，其中，所述射线方向由针孔相机模型确定。

13.根据权利要求11所述的方法，其中，识别用于拾取所述对象的位置包括使用所述抓取位置和所述抓取定向来确定用于拾取所述对象的抓取姿势。

14.根据权利要求13所述的方法，其中，所述对象由机器人拾取，并且所述抓取姿势确定机器人末端执行器的姿势。

15.根据权利要求1所述的方法，其中，所述多个对象是透明的。

16.一种用于使用机器人从多个透明对象的组拾取透明对象的方法，所述方法包括：

使用3D相机获得所述多个对象的2D红-绿-蓝(RGB)彩色图像；

使用所述3D相机获得所述多个对象的2D深度图图像，其中所述深度图图像中的各个像素被分配识别从所述相机到所述多个对象的距离的值；

通过执行使用深度学习的图像分割过程来生成所述多个对象的分割图像，所述图像分割过程从所述RGB图像提取多个特征，向所述分割图像中的各个像素分配标签使得所述分割图像中的每个对象具有相同的标签，并且确定所述多个对象的定向；

使用所述分割图像和所述深度图图像来识别用于拾取所述对象的位置；以及

使用在所述分割图像中所述对象的所述定向来旋转所述对象，其中，每次所述机器人从所述多个对象的组中拾取对象时，执行获得彩色图像、获得深度图图像、生成分割图像、识别用于拾取所述对象的位置以及旋转所述对象。

17.根据权利要求16所述的方法，其中，生成分割图像包括提供具有相同尺寸的多个边界框和被定向在不同方向上的相同尺寸的多个边界框，使用滑动窗口模板将所述多个边界框与所提取的多个特征对准，提供包括围绕所述多个对象的边界框的边界框图像，确定对象存在于每个边界框中的概率，以及识别在所述多个边界框中每个对象的中心像素。

18.根据权利要求16所述的方法，其中，识别用于拾取所述对象的位置包括识别在所述分割图像中所述多个对象的具有其存在的最高概率的对象的中心像素，使用所述中心像素和所述深度图图像来计算所述中心像素的x-y-z坐标，确定所述机器人用于拾取所述对象的x-y-z抓取位置，识别所述机器人用于拾取所述对象的抓取定向，并使用所述抓取位置和所述抓取定向来确定用于拾取所述对象的抓取姿势，所述抓取定向由使用针孔相机模型从所述相机到所述中心像素的射线方向限定。

19.一种用于使用机器人从多个对象的组中拾取对象的机器人***，所述***包括：

提供所述多个对象的图像的相机；

深度学习神经网络，其通过执行图像分割过程来生成所述多个对象的分割图像，所述图像分割过程从所述RGB图像提取多个特征并且向所述分割图像中的各个像素分配标签，使得所述分割图像中的每个对象具有相同的标签；

用于使用所述分割图像来识别用于拾取所述对象的位置的装置；以及

用于使用在所述分割图像中所述对象的所述定向来旋转所述对象的装置，其中，每次所述机器人从所述多个对象的组中拾取对象时，执行获得图像、生成分割图像、识别用于拾取所述对象的位置以及旋转所述对象。

20.根据权利要求19所述的***，其中，所述深度学习神经网络提供具有相同定向的多个边界框，使用滑动窗口模板将所述多个边界框与所提取的多个特征对准，提供包括围绕所述多个对象的边界框的边界框图像，确定对象存在于每个边界框中的概率，并且识别在所述多个边界框中每个对象的中心像素。