CN111145253B - 一种高效的物体6d姿态估计算法 - Google Patents

一种高效的物体6d姿态估计算法 Download PDF

Info

Publication number
CN111145253B
CN111145253B CN201911271915.5A CN201911271915A CN111145253B CN 111145253 B CN111145253 B CN 111145253B CN 201911271915 A CN201911271915 A CN 201911271915A CN 111145253 B CN111145253 B CN 111145253B
Authority
CN
China
Prior art keywords
network
point cloud
features
cloud data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911271915.5A
Other languages
English (en)
Other versions
CN111145253A (zh
Inventor
梁国远
陈帆
冯亚春
吴新宇
冯伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911271915.5A priority Critical patent/CN111145253B/zh
Publication of CN111145253A publication Critical patent/CN111145253A/zh
Application granted granted Critical
Publication of CN111145253B publication Critical patent/CN111145253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉一种高效的物体6D姿态估计算法,包括:1)将物体从场景中分割出区域以及对应的深度图;2)根据分割出来的区域以及对应的深度图,确定物体在相机坐标系下,被相机观测到的那个面的3D坐标信息,得到物体的点云数据,然后将其送到6D姿态估计网络中,直接处理点云数据,得到6D姿态信息。本发明提出一种高效的物体6D姿态估计算法,其基于高效深度神经网络的智能视觉***,以RGB‑D图像作为输入的目标识别和6D姿态估计,具有更高的运行速度和准确率。

Description

一种高效的物体6D姿态估计算法
技术领域
本发明属于智能装配领域,涉及一种高效的物体6D姿态估计算法。
背景技术
流水线是制造业历史上最伟大的发明之一。随着人工智能和机器人技术的飞速发展,越来越多的智能机器人被引入传统的流水线并取代了人工。这些机器人通常配备有智能视觉***,该***不仅可以检测工作空间中的零件,还可以在采取进一步的动作(例如抓紧,旋转,移动,装配等)之前估算其姿态参数。通常,来自物体识别和6D姿态的估算图像几乎是各种机器人应用程序的基础,例如机器人操纵,机器人与人的互动和虚拟现实。在过去的十年中,已经报道了许多方法。但是,由于背景的混乱,物体之间的严重遮挡以及光照条件的变化,尤其是在杂乱的场景中,该问题仍然具有挑战性。大多数经典方法都使用RGB图片作为输入,其中一些方法使用RGB-D数据作为输入。通常,这些方法的基本思想是通过在不同视点之间建立对应的2D图像特征来估计对象姿态,或构造从3D模型到2D图像的地图。在处理低纹理物体和不稳定的光照条件时通常会遇到困难。随着可靠的深度传感器的问世,基于RGB-D数据的方法变得越来越流行,并且在最近取得了重大进展。与RGB数据相比,深度数据不受纹理和光照变化引起的干扰,这使得使用RGB-D数据的方法比仅使用RGB的方法更可靠。但是,实时实现准确的姿态估计仍然是一个很大的挑战。
发明内容
为解决上述背景技术中存在的问题,本发明提出一种高效的物体6D姿态估计算法,其基于高效深度神经网络的智能视觉***,以RGB-D图像作为输入的目标识别和6D姿态估计,具有更高的运行速度和准确率。
本发明解决上述问题的技术方案是:一种高效的物体6D姿态估计算法,其特殊之处在于,包括以下步骤:
1)将物体从场景中分割出区域以及对应的深度图;
2)根据分割出来的区域以及对应的深度图,确定物体在相机坐标系下,被相机观测到的那个面的3D坐标信息,得到物体的点云数据,然后将其送到6D姿态估计网络中,直接处理点云数据,得到6D姿态信息。
优先地,所述步骤1)具体为:
通过改进的基于U-Net的网络实现的,包括:
使用RGB-D数据作为输入,使用两个主干网络分别从RGB图像和深度图提取特征;
为了提取色彩特征,ResNet被选为一个主干;用于从深度图提取特征的另一个骨干网由几个卷积和池化层组成;
使用插值来填充深度图,让彩色主干网的输出通道数多于深度主干网的输出通道数;
网络的最终输出将主要取决于颜色特征,而深度特征将用作辅助信息。
优先地,所述步骤2)中,
6D姿态估计网络包括两个分支:一个分支由多个Conv1D层和一个Avg-Pool层组成,该层对整个点云数据的全局位置信息进行编码;另一分支由三个SA+模块组成,提取点云数据的局部结构以及局部结构的位置信息;然后,将两个分支提取的特征连接在一起,并输入到多层连接的回归网络中,回归网络的输出6D姿态信息。
优先地,所述步骤2)中,SA+模块的工作过程可以分为三个阶段:
首先,使用iterative farthest point sampling(FPS)算法对点云物体数据进行采样m个点,
再以这m个点为中心聚合k个点,这样我们就得到了m个小点集(Pi=[pi1,pi2,...,pik],pi∈Rk*(d+C),i=1,2,...,m);
最后,这里有两个处理分支,一个分支用于编码小点集的绝对位置信息,另外一个分支进一步聚合特征以及编码局部几何结构特征。
本发明的优点:
1、本发明是基于U-Net的网络进行分割,该网络优于U-Net和一些最新的分割网络;
2、本发明涉及一种新的操作SA+与1DCNN一起使用,以提取全局和局部结构特征的组合表示,这对于准确的6D姿态估计至关重要;
3、本发明中6D姿态估计网络是高效的,在GTX1080Ti GPU上可达到25fps以上,使其适用于实时应用。
附图说明
图1为本发明一种高效的物体6D姿态估计算法的流程图;
图2为分割网络的结构图;
图3为RGB图像、深度图和经过插值后的深度图;
图4中左边的图像是深度图,中间的图像是颜色特征通道和深度特征通道设计成一样时候的网络输出之一,右边的图像是具有颜色特征通道和深度特征通道设计成不一样时候的网络输出之一;
图5为估计相机坐标系和对象坐标系之间的6D姿势的示意图;
图6为SA+模块的结构;
图7为整个6D姿态估计的网络结构图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
本发明一种高效的物体6D姿态估计算法,其通过使用RGB-D输入来从混乱的场景中实现精确的对象6D姿势推断,由于场景的复杂性和对象之间的遮挡,这是一项艰巨的任务,为了减少混乱环境的干扰,应用了多级网络,整个网络框架如图1所示,包括以下步骤:
1)基于Unet这种网络架构设计了一种新的分割网络,将目标物体从背景中分割出来,具体为:
在该步骤中,将物体从场景中分割出来,这是通过改进的基于U-Net的网络实现的。如图2所示。由于这里我们使用RGB-D数据作为输入,因此使用两个主干网络分别从RGB图像和深度图提取特征。为了提取色彩特征,ResNet被选为一个主干。用于从深度图提取特征的另一个骨干网由几个卷积和池化层组成。由于深度信息不完整,并非所有像素位置都具有深度值,因此我们使用插值来填充深度图。插值后的效果如图3(图3中,左边是RGB图像,中间是深度图,右边是经过插值后的深度图)所示。由于插值后的深度信息不完全可靠,我们让彩色主干网的输出通道数多于深度主干网的输出通道数。因此,网络的最终输出将主要取决于颜色特征,而深度特征将用作辅助信息。这种策略可以获得更好的结果,如图4所示。在通过骨干网提取特征图之后,将具有相同分辨率的特征图串联在一起。为了聚合不同比例的特征,使用了pyramid pooling module(PPM)。为了准确分割每个像素,有必要融合不同尺度的特征,因为大感受野的特征包含丰富的语义信息,而低尺度特征包含图像的局部结构信息。另外,“注意模块”(AM)被引入到我们的网络中。AM可以计算每个特征通道的重要性,并根据重要性增强有用的特征。
在骨干网络之后,我们使用密集连接的方式来聚合不同尺度的特征以预测分割掩码,已经证明,密集连接方式具有以下优点:鼓励特征重用,减轻梯度消失问题,实质上减少参数的数量并增强特征传播。聚合的特征图被上采样4次,然后经过1x1卷积层以获得最终的分割蒙版。在训练阶段,分割网络的损失函数我们定义为交叉熵损失。
2)根据分割出来的区域以及对应的深度图,确定物体在相机坐标系下,被相机观测到的那个面的3D坐标信息,得到物体的点云数据,然后将其送到6D姿态估计网络中,直接处理点云数据,得到6D姿态信息,具体为:
在该步骤中,是姿态估计,如图5所示,姿势估计是估计照相机坐标系与物体坐标系之间的6D姿势。6D姿态由3D平移矢量t和3D旋转矩阵R组成。本文提出的6D姿态估计网络参考了Pointnet++,该网络仅使用3D点云作为输入。
PointNet++的提出是为了解决点云物体的识别和点云场景的分割,该网络可以直接处理非结构化的点云数据。与PointNet++一起提出的Set Abstraction(SA)模块模块可用于提取局部几何结构特征的特征,这些特征将进一步分组为更大的单元并进行处理以产生更高级的特征。在本文中,我们介绍了一种新的名为Set Abstraction Plus(SA+)模块的操作,该模块基于SA设计,并且更适合6D姿态估计任务。SA+模块如图6所示,SA模块的结构包含在灰色虚线框中。源SA模块仅将局部几何结构编码到特征向量中,这对于分类任务是足够的,但对于6D姿态估计的任务来说是不够的。
我们定义点集P=[p1,p2,...,pn],pi∈Rd+C(d表示点云数据坐标维度,这里是3,C表示每个点的特征维度,刚开始C=0)代表经过分割网络之后得到的物体的3D点云数据。SA+的过程可以分为三个阶段:首先,使用iterative farthest point sampling(FPS)算法对点云物体数据进行采样m个点,再以这m个点为中心聚合k个点,这样我们就得到了m个小点集(Pi=[pi1,pi2,...,pik],pi∈Rk*(d+C),i=1,2,...,m)。接下来就如图6所示(图6中,SA+模块将数据流分组之后,分为两个分支,分别对局部几何结构和局部结构的绝对位置进行编码),这里有两个处理分支,一个分支用于编码小点集的绝对位置信息,另外一个分支进一步聚合特征以及编码局部几何结构特征。
6D姿势估计网络的整体结构(如图7所示)可以分为两个分支。一个分支由多个Conv1D层和一个Avg-Pool层组成,该层对整个点云数据的全局位置信息进行编码。另一分支由三个SA+模块组成,提取点云数据的局部结构以及局部结构的位置信息。然后,将两个分支提取的特征连接在一起,并输入到多层连接的回归网络中。回归网络的输出6D姿态信息。
本发明在linemod和YCB-Vedio数据集上经过实验,都取得了很高的准确率,且超过了绝大部分方法。
以上所述仅为本发明的实施例,并非以此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的***领域,均同理包括在本发明的保护范围内。

Claims (2)

1.一种高效的物体6D姿态估计算法,其特征在于,包括以下步骤:
1)将物体从场景中分割出区域以及对应的深度图,具体为:
通过改进的基于U-Net的网络实现的,包括:
使用RGB-D数据作为输入,使用两个主干网络分别从RGB图像和深度图提取特征;
为了提取色彩特征,ResNet被选为一个主干;用于从深度图提取特征的另一个骨干网由几个卷积和池化层组成;
使用插值来填充深度图,让彩色主干网的输出通道数多于深度主干网的输出通道数;
网络的最终输出将主要取决于颜色特征,而深度特征将用作辅助信息;
2)根据分割出来的区域以及对应的深度图,确定物体在相机坐标系下,被相机观测到的那个面的3D坐标信息,得到物体的点云数据,然后将其送到6D姿态估计网络中,直接处理点云数据,得到6D姿态信息;所述6D姿态估计网络包括两个分支:一个分支由多个Conv1D层和一个Avg-Pool层组成,该层对整个点云数据的全局位置信息进行编码;另一分支由三个SA+模块组成,提取点云数据的局部结构以及局部结构的位置信息;然后,将两个分支提取的特征连接在一起,并输入到多层连接的回归网络中,回归网络输出6D姿态信息。
2.根据权利要求1所述的一种高效的物体6D姿态估计算法,其特征在于:
所述步骤2)中,SA+模块的工作过程可以分为三个阶段:
首先,使用iterative farthest point sampling(FPS)算法对点云物体数据进行采样m个点,
再以这m个点为中心聚合k个点,这样我们就得到了m个小点集(Pi=[pi1,pi2,...,pik],pi∈Rk*(d+C),i=1,2,...,m);
最后,这里有两个处理分支,一个分支用于编码小点集的绝对位置信息,另外一个分支进一步聚合特征以及编码局部几何结构特征。
CN201911271915.5A 2019-12-12 2019-12-12 一种高效的物体6d姿态估计算法 Active CN111145253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911271915.5A CN111145253B (zh) 2019-12-12 2019-12-12 一种高效的物体6d姿态估计算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911271915.5A CN111145253B (zh) 2019-12-12 2019-12-12 一种高效的物体6d姿态估计算法

Publications (2)

Publication Number Publication Date
CN111145253A CN111145253A (zh) 2020-05-12
CN111145253B true CN111145253B (zh) 2023-04-07

Family

ID=70518218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911271915.5A Active CN111145253B (zh) 2019-12-12 2019-12-12 一种高效的物体6d姿态估计算法

Country Status (1)

Country Link
CN (1) CN111145253B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
KR20210157470A (ko) * 2020-06-19 2021-12-28 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체
CN112651423A (zh) * 2020-11-30 2021-04-13 深圳先进技术研究院 一种智能视觉***
CN112435297B (zh) * 2020-12-02 2023-04-18 达闼机器人股份有限公司 目标物***姿确定方法、装置、存储介质及电子设备
CN112561995B (zh) * 2020-12-09 2024-04-23 中国科学院深圳先进技术研究院 一种实时高效的6d姿态估计网络、构建方法及估计方法
CN113192141A (zh) * 2020-12-10 2021-07-30 中国科学院深圳先进技术研究院 一种6d姿态估计方法
CN113239771A (zh) * 2021-05-07 2021-08-10 中国科学院深圳先进技术研究院 一种姿态估计方法、***及其应用
CN114972968A (zh) * 2022-05-19 2022-08-30 长春市大众物流装配有限责任公司 基于多重神经网络的托盘识别和位姿估计方法
CN116416307B (zh) * 2023-02-07 2024-04-02 浙江大学 基于深度学习的预制构件吊装拼接3d视觉引导方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
WO2019015761A1 (en) * 2017-07-20 2019-01-24 Toyota Motor Europe ELECTRONIC DEVICE, SYSTEM AND METHOD FOR DETERMINING THE INSTALLATION OF AN OBJECT
CN109801337A (zh) * 2019-01-21 2019-05-24 同济大学 一种基于实例分割网络和迭代优化的6d位姿估计方法
CN110363817A (zh) * 2019-07-10 2019-10-22 北京悉见科技有限公司 目标位姿估计方法、电子设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019015761A1 (en) * 2017-07-20 2019-01-24 Toyota Motor Europe ELECTRONIC DEVICE, SYSTEM AND METHOD FOR DETERMINING THE INSTALLATION OF AN OBJECT
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN109801337A (zh) * 2019-01-21 2019-05-24 同济大学 一种基于实例分割网络和迭代优化的6d位姿估计方法
CN110363817A (zh) * 2019-07-10 2019-10-22 北京悉见科技有限公司 目标位姿估计方法、电子设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion;Chen Wang.et al;《arxiv》;20190131;第3343-3352页 *

Also Published As

Publication number Publication date
CN111145253A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111145253B (zh) 一种高效的物体6d姿态估计算法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN111179324B (zh) 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN110458863B (zh) 一种基于rgbd与编码器融合的动态slam***
CN109146001B (zh) 多视角isar图像融合方法
EP2595116A1 (en) Method for generating depth maps for converting moving 2d images to 3d
CN111489394B (zh) 物体姿态估计模型训练方法、***、装置及介质
CN110570522A (zh) 一种多视图三维重建方法
CN110246212B (zh) 一种基于自监督学习的目标三维重建方法
CN113160375A (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN111311664B (zh) 一种深度、位姿与场景流的联合无监督估计方法及***
Holzmann et al. Semantically aware urban 3d reconstruction with plane-based regularization
CN110942476A (zh) 基于二维图像引导的改进三维点云配准方法、***及可读存储介质
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN115035296A (zh) 一种基于鸟瞰投影的飞行汽车3d语义分割方法及***
CN113129370B (zh) 结合生成数据和无标注数据的半监督物***姿估计方法
CN110599534B (zh) 适用于2d卷积神经网络的可学习引导滤波模块和方法
CN114793457A (zh) 用于改进确定深度图、相对姿势或语义分割的过程的设备和方法
CN111860668A (zh) 一种针对原始3d点云处理的深度卷积网络的点云识别方法
Karaoglu et al. Dynamon: Motion-aware fast and robust camera localization for dynamic nerf
CN115578460A (zh) 基于多模态特征提取与稠密预测的机器人抓取方法与***
CN115330935A (zh) 一种基于深度学习的三维重建方法及***
Mao et al. BEVScope: Enhancing Self-Supervised Depth Estimation Leveraging Bird's-Eye-View in Dynamic Scenarios
CN110910438B (zh) 一种超高分辨率双目图像的高速立体匹配算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant