CN112767486B - 基于深度卷积神经网络的单目6d姿态估计方法及装置 - Google Patents

基于深度卷积神经网络的单目6d姿态估计方法及装置 Download PDF

Info

Publication number
CN112767486B
CN112767486B CN202110111487.0A CN202110111487A CN112767486B CN 112767486 B CN112767486 B CN 112767486B CN 202110111487 A CN202110111487 A CN 202110111487A CN 112767486 B CN112767486 B CN 112767486B
Authority
CN
China
Prior art keywords
dimensional model
diagram
neural network
surface area
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110111487.0A
Other languages
English (en)
Other versions
CN112767486A (zh
Inventor
季向阳
王谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110111487.0A priority Critical patent/CN112767486B/zh
Publication of CN112767486A publication Critical patent/CN112767486A/zh
Application granted granted Critical
Publication of CN112767486B publication Critical patent/CN112767486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度卷积神经网络的单目6D姿态估计方法及装置,该方法包括:对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度;将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将物体的三维模型坐标投影与2D坐标图拼接得到2D‑3D密集对应关系图;将2D‑3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。该方法充分利用几何信息,使得直接回归6D物体姿态的方法的性能优于几何间接法,且能够满足高精度、实时性以及可微分的要求。

Description

基于深度卷积神经网络的单目6D姿态估计方法及装置
技术领域
本发明涉及计算机视觉,自动驾驶,机器人学技术领域,特别涉及一种基于深度卷积神经网络的单目6D姿态估计方法及装置。
背景技术
从单张RGB图像中获取物体在三维空间中的6D姿态(即3自由度的旋转和3自由度的平移)在很多现实应用中非常关键,例如,在机器人领域中,可为抓取或者运动规划提供关键的信息;在无人驾驶中,车辆和行人的6D姿态可提供驾驶的决策信息;在增强现实/虚拟现实中,准确地获得物体6D姿态可以实现更好的人机交互。
近年来,深度卷积神经网络在单目6D物体姿态估计上取得了比较大的进展,大致有三大类方法。第一类是直接回归的方法,即直接从神经网络预测6D姿态,不同的方法预测不同的姿态表示。第二类是基于几何的间接法,即预测稀疏的三维模型关键点在图像平面上的投影或者预测密集的三维模型坐标投影图,然后通过建立2D-3D的对应关系,利用RANSAC/PnP求解6D姿态。第三种方法是利用度量学习或者自编码器建立旋转对应的特征码本,然后通过码本索引得到姿态。这些方法中,基于几何的间接法目前能达到的精度最高,而直接回归法相对效果较差。虽然几何间接法精度较高,但是该类方法存在一些缺点,例如该方法优化的是坐标误差,无法直接基于6D姿态进行优化,而同样的坐标误差可能对应完全不同的6D姿态;测试时不能获得可微分的姿态预测,无法应用于其他需要可微分姿态的下游任务;此外,RANSAC过程比较耗时,在实时性要求高的场景也不适用。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度卷积神经网络的单目6D姿态估计方法,该方法充分利用几何信息,使得直接回归6D物体姿态的方法的性能优于几何间接法,且能够满足高精度、实时性以及可微分的要求。
本发明的另一个目的在于提出一种基于深度卷积神经网络的单目6D姿态估计装置。
为达到上述目的,本发明一方面实施例提出了一种基于深度卷积神经网络的单目6D姿态估计方法,包括:
对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度;
将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将所述物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图;
将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。
本发明实施例的基于深度卷积神经网络的单目6D姿态估计方法,根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放,输入到深度卷积神经网络中,输出三种几何中间特征,包括物体的分割掩码,物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块:Patch-PnP,直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络,且充分利用了几何的中间特征,可以端到端地训练,在准确率高的同时有很快的推理速度。在多个数据基准的测试下,准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。
另外,根据本发明上述实施例的基于深度卷积神经网络的单目6D姿态估计方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,对所述卷积神经网络进行训练时,物体的三维模型坐标投影图的真实标注采用渲染的方法得到,将物体的三维模型的每个顶点的颜色用顶点的坐标代替,在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。
进一步地,在本发明的一个实施例中,对所述卷积神经网络进行训练时,物体的三维模型表面区域注意力图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到,在二维图像上的每个物体前景像素上,其三维表面区域标签为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号。
进一步地,在本发明的一个实施例中,所述卷积神经网络由卷积层,残差卷积模块,反卷积层,和上采样层构成,输入的目标图像块的空间尺度先被缩小到1/32,然后放大到输入尺度的1/4,物体分割掩码的通道数为1,物体的三维模型坐标投影图的通道数为3,物体三维模型表面区域注意力图的通道数为S+1,其中,S是三维模型的表面区域数。
进一步地,在本发明的一个实施例中,所述神经网络模块的Patch-PnP网络由卷积层和全连接层构成,采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32,再将卷积层输出的特征拉平,通过全连接层分别回归旋转和平移。
进一步地,在本发明的一个实施例中,旋转R的回归采用6维的向量R6d,取自3×3旋转矩阵R的前两列,对于任意网络输出的6维旋转向量R6d=[r1|r2],根据旋转矩阵的正交性,解出3×3的旋转矩阵R=[R·1|R·2|R·3]:
Figure BDA0002919196590000031
其中,φ表示向量归一化操作,×表示向量的叉乘。
进一步地,在本发明的一个实施例中,平移t的回归采用尺度不变的平移量tSITE=[δxyz]T,即预测原始图像中目标物体的矩形包围框的中心(cx,cy)和物体在图像上的投影中心(ox,oy)之间的相对距离(δxy),以及物体与相机之间的相对距离δz
Figure BDA0002919196590000032
其中,w和h为原始图像中目标物体的矩形包围框的宽和高,r为原始图像中目标物体的尺度与网络输入图像块的尺度szoom之间的缩放系数r=szoom/max(w,h),根据网络的预测平移量,通过逆投影得到3D的平移量t=K-1tz[ox,oy,1]T,其中,K为相机的内部参数。
进一步地,在本发明的一个实施例中,网络损失函数为L=LGeom+LPose,其中,LGeom为几何损失,LPose为6D姿态回归损失;几何损失函数LGeom为:
Figure BDA0002919196590000033
其中,CE表示交叉熵损失函数,
Figure BDA0002919196590000034
Figure BDA0002919196590000035
分别表示真实标注和预测量,⊙为逐点乘法,表示只计算MXYZ和MRegion的前景部分的损失函数;
6D姿态回归损失为:
Figure BDA0002919196590000036
其中,M为物体的3D模型,x∈M为3D模型上的点。
为达到上述目的,本发明另一方面实施例提出了一种基于深度卷积神经网络的单目6D姿态估计装置,包括:
缩放模块,用于对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度;
处理模块,用于将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将所述物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图;
生成模块,用于将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。
本发明实施例的基于深度卷积神经网络的单目6D姿态估计装置,根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放,输入到深度卷积神经网络中,输出三种几何中间特征,包括物体的分割掩码,物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块:Patch-PnP,直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络,且充分利用了几何的中间特征,可以端到端地训练,在准确率高的同时有很快的推理速度。在多个数据基准的测试下,准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。
另外,根据本发明上述实施例的基于深度卷积神经网络的单目6D姿态估计装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,对所述卷积神经网络进行训练时,物体的三维模型坐标投影图的真实标注采用渲染的方法得到,将物体的三维模型的每个顶点的颜色用顶点的坐标代替,在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程图;
图2为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程框图;
图3为根据本发明一个实施例的基于几何指导的单目6D物体姿态直接回归网络结构图;
图4为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计方法及装置。
首先将参照附图描述根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计方法。
图1为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程图。
图2为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程框图。
如图1和图2所示,该基于深度卷积神经网络的单目6D姿态估计方法包括以下步骤:
步骤S1,对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度。
具体地,训练时的物体的区域由真实标注加上噪声获得,测试时的物体区域由任意一个2D目标检测器得到。
步骤S2,将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图。
将RGB图像中包含目标物体的区域缩放到固定尺度后,输入一个卷积神经网络,输出三种几何中间特征,包含:物体的分割掩码Mmask、物体的三维模型坐标投影图MXYZ,以及物体的三维模型表面区域注意力图MRegion。其中,物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图M2D-3D
进一步地,训练时物体的三维模型坐标投影图的真实标注采用渲染的方法得到。具体地,将物体的三维模型的每个顶点的颜色用顶点的坐标代替,然后在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。
进一步地,训练时的三维模型表面区域图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到。具体地,在二维图像上的每个物体前景像素上,其三维表面区域标签为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号。
步骤S3,将2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。
将2D-3D密集对应关系图M2D-3D和表面区域注意力图MRegion这两种几何特征同时输入第二个较小的神经网络模块:Patch-PnP,直接回归得到物体的6D姿态。
可以理解的是,如图2所示,单目6D姿态估计的深度卷积神经网络一共包含两个模块,第一个模块的深度卷积神经网络由卷积层,残差卷积模块,反卷积层和上采样层构成。输入的目标图像块的空间尺度先被缩小到1/32,这一部分可以是任意已有的深度卷积神经网络例如ResNet-34,然后放大到输入尺度的1/4,即三种中间几何特征的空间尺度均为输入尺度的1/4。物体分割掩码的通道数为1,物体的三维模型坐标投影图的通道数为3,物体三维模型表面区域注意力图的通道数为S+1,其中S是三维模型的表面区域数,也是三维模型最远采样的关键点数目,增加的一个通道用来表示不在物体表面上的背景区域。
第二个模块的Patch-PnP网络由卷积层和全连接层构成。首先采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32,然后将卷积层输出的特征拉平,然后通过全连接层分别回归旋转和平移。
旋转R的回归采用6维的向量R6d,取自3×3旋转矩阵R的前两列。对于任意网络输出的6维旋转向量R6d=[r1|2],根据旋转矩阵的正交性,可以解出3×3的旋转矩阵R=[R·1|R·2|R·3]:
Figure BDA0002919196590000061
其中φ表示向量归一化操作,×表示向量的叉乘。
平移t的回归采用尺度不变的平移量tsITE=[δxyz]T。即预测原始图像中目标物体的矩形包围框的中心(cx,cy)和物体在图像上的投影中心(ox,oy)之间的相对距离(δxy),以及物体与相机之间的相对距离δz
Figure BDA0002919196590000062
其中w和h为原始图像中目标物体的矩形包围框的宽和高,r为原始图像中目标物体的尺度与网络输入图像块的尺度szoom之间的缩放系数r=szoom/max(w,h)。根据网络的预测平移量,可以通过逆投影得到3D的平移量t=K-1tz[ox,oy,1]T,其中K为相机的内部参数。
网络的损失函数为L=LGeom+LPose,包含几何损失LGeom和6D姿态回归损失LPose两部分。几何损失函数为:
Figure BDA0002919196590000063
其中,CE表示交叉熵损失函数,
Figure BDA0002919196590000064
Figure BDA0002919196590000065
分别表示真实标注和预测量,⊙为逐点乘法,表示只计算MXYZ和MRegion的前景部分的损失函数。
6D姿态回归损失为:
Figure BDA0002919196590000071
其中,M为物体的3D模型,x∈M为3D模型上的点。
根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计方法,根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放,输入到深度卷积神经网络中,输出三种几何中间特征,包括物体的分割掩码,物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块:Patch-PnP,直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络,且充分利用了几何的中间特征,可以端到端地训练,在准确率高的同时有很快的推理速度。在多个数据基准的测试下,准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。
其次参照附图描述根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计装置。
图4为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计装置结构示意图。
如图4所示,该基于深度卷积神经网络的单目6D姿态估计装置包括:缩放模块401、处理模块402和生成模块403。
缩放模块401,用于对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度。
处理模块402,用于将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图。
生成模块403,用于将2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。
进一步地,在本发明的一个实施例中,对卷积神经网络进行训练时,物体的三维模型坐标投影图的真实标注采用渲染的方法得到,将物体的三维模型的每个顶点的颜色用顶点的坐标代替,在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。
需要说明的是,前述对基于深度卷积神经网络的单目6D姿态估计装置方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计装置,根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放,输入到深度卷积神经网络中,输出三种几何中间特征,包括物体的分割掩码,物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块:Patch-PnP,直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络,且充分利用了几何的中间特征,可以端到端地训练,在准确率高的同时有很快的推理速度。在多个数据基准的测试下,准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种基于深度卷积神经网络的单目6D姿态估计方法,其特征在于,包括以下步骤:
对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度;
将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将所述物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图;
将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态;
对所述卷积神经网络进行训练时,物体的三维模型表面区域注意力图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到,在二维图像上的每个物体前景像素上,其三维模型表面区域注意力图为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号;
所述卷积神经网络由卷积层,残差卷积模块,反卷积层,和上采样层构成,输入的目标图像块的空间尺度先被缩小到1/32,然后放大到输入尺度的1/4,物体分割掩码的通道数为1,物体的三维模型坐标投影图的通道数为3,物体三维模型表面区域注意力图的通道数为S+1,其中,S是三维模型的表面区域数;
所述神经网络模块的Patch-PnP网络由卷积层和全连接层构成,采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32,再将卷积层输出的特征拉平,通过全连接层分别回归旋转和平移。
2.根据权利要求1所述的方法,其特征在于,对所述卷积神经网络进行训练时,物体的三维模型坐标投影图的真实标注采用渲染的方法得到,将物体的三维模型的每个顶点的颜色用顶点的坐标代替,在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。
3.根据权利要求1所述的方法,其特征在于,旋转R的回归采用6维的向量R6d,取自3×3旋转矩阵R的前两列,对于任意网络输出的6维旋转向量R6d=[r1|r2],根据旋转矩阵的正交性,解出3×3的旋转矩阵R=[R.1|R.2|R.3]:
Figure FDA0003804190100000011
其中,φ表示向量归一化操作,×表示向量的叉乘。
4.根据权利要求1所述的方法,其特征在于,平移t的回归采用尺度不变的平移量tSITE=[δx,δy,δz]T,即预测原始图像中目标物体的矩形包围框的中心(cx,cy)和物体在图像上的投影中心(ox,oy)之间的相对距离(δx,δy),以及物体与相机之间的相对距离δz
Figure FDA0003804190100000021
其中,w和h为原始图像中目标物体的矩形包围框的宽和高,r为原始图像中目标物体的尺度与网络输入图像块的尺度szoom之间的缩放系数r=szoom/max(w,h),根据网络的预测平移量,通过逆投影得到3D的平移量t=K-1tz[ox,oy,1]T,其中,K为相机的内部参数。
5.根据权利要求1所述的方法,其特征在于,网络损失函数为L=LGeom+LPose,其中,LGeom为几何损失,LPose为6D姿态回归损失;几何损失函数LGeom为:
Figure FDA0003804190100000022
其中,CE表示交叉熵损失函数,
Figure FDA0003804190100000023
Figure FDA0003804190100000024
分别表示真实标注和预测量,⊙为逐点乘法,表示只计算MXYZ和MRegion的前景部分的损失函数;
6D姿态回归损失为:
Figure FDA0003804190100000025
其中,M为物体的3D模型,x∈M为3D模型上的点。
6.一种基于深度卷积神经网络的单目6D姿态估计装置,其特征在于,包括:
缩放模块,用于对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度;
处理模块,用于将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将所述物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图;
生成模块,用于将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态;
对所述卷积神经网络进行训练时,物体的三维模型表面区域注意力图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到,在二维图像上的每个物体前景像素上,其三维模型表面区域注意力图为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号;
所述卷积神经网络由卷积层,残差卷积模块,反卷积层,和上采样层构成,输入的目标图像块的空间尺度先被缩小到1/32,然后放大到输入尺度的1/4,物体分割掩码的通道数为1,物体的三维模型坐标投影图的通道数为3,物体三维模型表面区域注意力图的通道数为S+1,其中,S是三维模型的表面区域数;
所述神经网络模块的Patch-PnP网络由卷积层和全连接层构成,采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32,再将卷积层输出的特征拉平,通过全连接层分别回归旋转和平移。
7.根据权利要求6所述的装置,其特征在于,对所述卷积神经网络进行训练时,物体的三维模型坐标投影图的真实标注采用渲染的方法得到,将物体的三维模型的每个顶点的颜色用顶点的坐标代替,在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。
CN202110111487.0A 2021-01-27 2021-01-27 基于深度卷积神经网络的单目6d姿态估计方法及装置 Active CN112767486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110111487.0A CN112767486B (zh) 2021-01-27 2021-01-27 基于深度卷积神经网络的单目6d姿态估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110111487.0A CN112767486B (zh) 2021-01-27 2021-01-27 基于深度卷积神经网络的单目6d姿态估计方法及装置

Publications (2)

Publication Number Publication Date
CN112767486A CN112767486A (zh) 2021-05-07
CN112767486B true CN112767486B (zh) 2022-11-29

Family

ID=75706122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110111487.0A Active CN112767486B (zh) 2021-01-27 2021-01-27 基于深度卷积神经网络的单目6d姿态估计方法及装置

Country Status (1)

Country Link
CN (1) CN112767486B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313810B (zh) * 2021-06-18 2022-12-27 广东工业大学 一种透明物体的6d姿态参数计算方法
CN114170304B (zh) * 2021-11-04 2023-01-03 西安理工大学 一种基于多头自注意力和置换注意力的相机定位方法
CN114004971A (zh) * 2021-11-17 2022-02-01 北京航空航天大学 一种基于单目图像和先验信息的3d目标检测方法
CN115420277B (zh) * 2022-08-31 2024-04-12 北京航空航天大学 一种物***姿测量方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8971572B1 (en) * 2011-08-12 2015-03-03 The Research Foundation For The State University Of New York Hand pointing estimation for human computer interaction
CN105447462A (zh) * 2015-11-20 2016-03-30 小米科技有限责任公司 人脸姿态估计方法及装置
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN111259934A (zh) * 2020-01-09 2020-06-09 清华大学深圳国际研究生院 一种基于深度学习的堆叠物体6d位姿估计方法和装置
CN111898519A (zh) * 2020-07-28 2020-11-06 武汉大学 便携式的特定区域内运动训练辅助视觉伺服机器人***及姿态评估方法
CN112037312A (zh) * 2020-11-04 2020-12-04 成都市谛视科技有限公司 实时人体姿态逆向运动学求解方法及装置
CN112163470A (zh) * 2020-09-11 2021-01-01 高新兴科技集团股份有限公司 基于深度学习的疲劳状态识别方法、***、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8971572B1 (en) * 2011-08-12 2015-03-03 The Research Foundation For The State University Of New York Hand pointing estimation for human computer interaction
CN105447462A (zh) * 2015-11-20 2016-03-30 小米科技有限责任公司 人脸姿态估计方法及装置
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN111259934A (zh) * 2020-01-09 2020-06-09 清华大学深圳国际研究生院 一种基于深度学习的堆叠物体6d位姿估计方法和装置
CN111898519A (zh) * 2020-07-28 2020-11-06 武汉大学 便携式的特定区域内运动训练辅助视觉伺服机器人***及姿态评估方法
CN112163470A (zh) * 2020-09-11 2021-01-01 高新兴科技集团股份有限公司 基于深度学习的疲劳状态识别方法、***、存储介质
CN112037312A (zh) * 2020-11-04 2020-12-04 成都市谛视科技有限公司 实时人体姿态逆向运动学求解方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Self6D: Self-Supervised Monocular 6D Object Pose Estimation;Gu Wang等;《arXiv》;20200803;全文 *
Tom'aˇs Hodaˇn.EPOS: Estimating 6D Pose of Objects with Symmetries.《arXiv》.2020, *
基于RGB-D与深度学习的行为识别算法;刘云等;《计算机工程与设计》;20190616(第06期);全文 *

Also Published As

Publication number Publication date
CN112767486A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112767486B (zh) 基于深度卷积神经网络的单目6d姿态估计方法及装置
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
US11941831B2 (en) Depth estimation
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN110298884B (zh) 一种适于动态环境中单目视觉相机的位姿估计方法
CN111899301A (zh) 一种基于深度学习的工件6d位姿估计方法
US20230080133A1 (en) 6d pose and shape estimation method
US20220189116A1 (en) Scene representation using image processing
CN114078182A (zh) 用于输出参数化3d模型的神经网络
CN110223382B (zh) 基于深度学习的单帧图像自由视点三维模型重建方法
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
US20230351724A1 (en) Systems and Methods for Object Detection Including Pose and Size Estimation
CN112598735B (zh) 一种融合三维模型信息的单张图像物***姿估计方法
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及***
Kim et al. Latent transformations neural network for object view synthesis
CN116468731A (zh) 基于跨模态Transformer的点云语义分割方法
CN112085842A (zh) 深度值确定方法及装置、电子设备和存储介质
CN115239559A (zh) 一种融合视图合成的深度图超分辨率方法及***
CN114863021A (zh) 一种基于三维重建场景的仿真数据集分析方法及***
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
Xing et al. Scale-consistent fusion: from heterogeneous local sampling to global immersive rendering
US20230215094A1 (en) Computer Graphics Interface Using Visual Indicator Representing Object Global Volume and/or Global Volume Changes and Method Therefore
Zhang et al. Colorful Reconstruction from Solid-State-LiDAR and Monocular Version
Cheng et al. Using full-scale feature fusion for self-supervised indoor depth estimation
CN117788544A (zh) 一种基于轻量级注意力机制的图像深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant