CN114119753A - 面向机械臂抓取的透明物体6d姿态估计方法 - Google Patents

面向机械臂抓取的透明物体6d姿态估计方法 Download PDF

Info

Publication number
CN114119753A
CN114119753A CN202111488783.9A CN202111488783A CN114119753A CN 114119753 A CN114119753 A CN 114119753A CN 202111488783 A CN202111488783 A CN 202111488783A CN 114119753 A CN114119753 A CN 114119753A
Authority
CN
China
Prior art keywords
image
network
edge
transparent object
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111488783.9A
Other languages
English (en)
Inventor
邹勤
吴婷
邱雁成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiwan Technology Wuhan Co ltd
Original Assignee
Beiwan Technology Wuhan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiwan Technology Wuhan Co ltd filed Critical Beiwan Technology Wuhan Co ltd
Priority to CN202111488783.9A priority Critical patent/CN114119753A/zh
Publication of CN114119753A publication Critical patent/CN114119753A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向机械臂抓取的透明物体6D姿态估计方法。其输入为透明物体的RGB图像、Edge图像以及深度图像,输出为透明物体的6D位姿。构建三分支深度学习网络模型,该模型包括纹理特征提取网络、边缘特征提取网络、几何特征提取网络和关键点检测网络;其中,纹理特征提取网络输入数据为RGB图像,边缘特征提取网络输入数据为Edge图像,几何特征提取网络输入数据为深度图像;其中,关键点检测网络融合三个特征提取网络提取出来的特征,并嵌入自注意力机制来获取全局特征;最大限度利用透明物体的纹理信息和几何信息,结合特征融合思想和注意力机制,研究和探索出一种适用于透明物体6D姿态估计的方法。

Description

面向机械臂抓取的透明物体6D姿态估计方法
技术领域
本发明涉及机器视觉和机械臂抓取领域,具体涉及一种面向机械臂抓取的透明物体6D姿态估计方法。
背景技术
随着人力成本的不断增加和科学技术的发展,全球各行各业的机器人快速发展。机器人可以确保更高质量的生产和服务,代替人力完成一些重复、重型、危险的工作,减少人为错误和满足企业日益增长的需求。如今,机器换人已经成为各行各业发展的重要趋势,机器人相关的研究也越来越多。机械臂抓取就是其中的一个分支。抓取作为机械臂最基本也最重要的功能之一,要想成功抓取到物体,首先就需要估计出物体的6D位姿,即“看”到物体在哪、摆放角度。长久以来,研究者们都是比较重视对非透明物体的研究,对透明物体6D姿态估计的研究相对较少。然而,透明物体在人们生活和工业生产中都是不可或缺的一部分,是机械臂抓取必须解决的问题之一,因此,开展针对透明物体6D姿态估计的研究,具有重要的现实意义。
透明物体检测的传统方法大多依赖于透明物体的某些特质,如因镜面反射或折射而产生的边缘局部特征。随着深度学习的发展,出现了一些基于深度神经网络(DNN)的方法,这些方法可以直接预测透明物体的位姿。然而,这些方法要么只利用了RGB图像中的纹理信息,要么只利用了破损深度图像中的几何信息。由于缺少了另一种信息,因此这些方法的泛化能力往往不够,很难有效应对各种光照背景以及遮挡环境下的情况。透明物体的纹理信息和几何信息虽然不如非透明物体一样有区分度,但是也有它们独特的特征:透明物体的边缘相对其他部分来说更容易观察到;光线的折射使得透明物体所在的区域有别于其他的区域。这些差异和特征可作为透明物体6D姿态估计算法设计的依据。
发明内容
为了克服上述不足,本发明提出了一种面向机械臂抓取的透明物体6D姿态估计方法。其输入为透明物体的RGB图像、Edge图像以及深度图像,输出为透明物体的6D位姿;最大限度利用透明物体的纹理信息和几何信息,结合特征融合思想和注意力机制,研究和探索出一种适用于透明物体6D姿态估计的方法。本发明的技术方案包含以下步骤:
步骤S1,构建真实透明物体数据集,所述数据集中的每一个物体包含多张RGB图像和深度图像;
步骤S2,构建三分支深度学习网络模型,该模型包括纹理特征提取网络、边缘特征提取网络、几何特征提取网络和关键点检测网络;其中,纹理特征提取网络输入数据为RGB图像,边缘特征提取网络输入数据为Edge图像,几何特征提取网络输入数据为深度图像;其中,关键点检测网络融合三个特征提取网络提取出来的特征,并嵌入自注意力机制来获取全局特征;
步骤S3,利用S1构建的图像数据集对步骤S2构建的深度学习模型进行训练;
步骤S4,利用步骤S3训练好的模型进行透明物体6D姿态估计。
进一步地,所述步骤S1的具体过程如下:
S1-1,通过RGB-D传感器采集P个透明物体的Q张RGB图像和Q张深度图像,并采用边缘提取算法,获取P×Q张Edge图像;对每张图像标注6D位姿标签;
S1-2,利用3D渲染工具合成P个透明物体的3D模型,使用坐标变换和2D-3D投影,将模型投影到二维图像上,再经过人工优化投影图像,得到每张图像的mask图像;
S1-3,经过上面两步的处理,得到P个数据样本,每个样本包含数量为Q的RGB图像、数量为Q的深度图像、数量为Q的Edge图像以及数量为Q的mask图像,并且每张图像具有6D位姿标签;将P个样本作为透明物体6D姿态估计数据集。
进一步地,所述步骤S2的具体过程如下:
S2-1,将一个样本的一张RGB图像输入纹理特征提取网络,经过纹理特征提取网络的编解码网络,输出大小为
Figure 881789DEST_PATH_IMAGE001
的纹理特征图和预测的Edge图像;纹理特征图通过两层卷积层,并利用mask图像随机采样物体上的N个像素点,如果采样的点数不足N,则复制最后一个边缘点补足到N,并记住这N个点的坐标,最后输出大小为
Figure 121140DEST_PATH_IMAGE002
的纹理特征向量;将同一个样本的一张Edge图像输入边缘特征提取网络,经过边缘特征提取网络的编解码网络,输出
Figure 917933DEST_PATH_IMAGE003
的边缘特征图,利用上述保存的N个点的坐标在同样位置采样N个点,最后输出大小为
Figure 305052DEST_PATH_IMAGE004
的边缘特征向量;为了减少计算量,将同个样本的一张深度图像转成点云后,先按照同样的方法采样N个点,再输入点云特征提取网络,最后输出大小为
Figure 612536DEST_PATH_IMAGE005
的几何特征向量;
S2-2,将上一步得到的纹理特征向量、边缘特征向量和几何特征向量输入关键点检测网络进行特征融合,关键点检测网络的自注意力模块输出融合后的全局特征,大小为
Figure 503132DEST_PATH_IMAGE006
S2-3,将上一步得到的特征向量通过关键点检测网络的卷积层,最后投票得到关键点,并通过最小二乘法获取透明物体在当前图像中的6D位姿。
进一步地,所述步骤S3训练深度学习网络模型时构建损失函数的过程如下:
S3-1,在步骤S2-1中,将RGB图像送入纹理信息特征网络得到预测的透明物体mask图像,设N为像素点的个数,
Figure 300187DEST_PATH_IMAGE007
为平衡参数,
Figure 846705DEST_PATH_IMAGE008
为聚焦参数,
Figure 20198DEST_PATH_IMAGE009
是第i个像素点属于每个类的置信度,
Figure 30879DEST_PATH_IMAGE010
是ground truth类标签的one-hot表示,定义语义分割损失函数:
Figure 936518DEST_PATH_IMAGE011
公式中:
Figure 32650DEST_PATH_IMAGE012
,并通过最小优化求解:
Figure 180473DEST_PATH_IMAGE013
S3-2,在步骤S2-2中,得到全局特征向量,为使得每个像素点尽可能指向关键点,设N为像素点个数,M为关键点个数,
Figure 45660DEST_PATH_IMAGE014
是网络预测的特征向量,
Figure 184518DEST_PATH_IMAGE015
是ground truth向量,其中每一行向量为像素点i指向关键点j的单位向量,定义关键点检测损失函数:
Figure 705629DEST_PATH_IMAGE016
基于同一发明构思,本发明还设计了一种电子设备,其特殊之处在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的面向机械臂抓取的透明物体6D姿态估计方法。
基于同一发明构思,本发明还设计了一种电子设备,其特殊之处在于,包括:所述程序被处理器执行时实现上述任一所述的面向机械臂抓取的透明物体6D姿态估计方法。
本发明的优点:
1.本发明创新性地构建了一个三分支的端到端的深度学习网络,它由纹理特征提取网络分支、边缘特征提取网络、几何特征提取网络分支和关键点检测网络组成;每个分支由编解码网络组成,能发挥提取单张图像的纹理信息、边缘信息和几何信息;关键点检测网络融合上述三种信息,并通过注意力模块获取全局特征,提高姿态估计的正确率;
2.本发明创新性使用自注意力特征融合思想,充分利用透明物体的纹理特征、边缘特征和几何特征,通过特征融合后再利用自注意力机制获取全局特征,提高透明物体6D姿态估计的准确率;
3.本发明创新型地构建了一个真实的RGB-D透明物体数据集,为透明物体6D姿态估计算法的研究及评估提供了支撑。
附图说明
图1是本发明的深度学习神经网络总体架构图。
图2是本发明的关键点检测网络架构图。
图3是本发明的***流程图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明设计的面向机械臂抓取的透明物体6D姿态估计方,提供了一种新型的三分支的深度学习网络模型,其总体结构参见图1和图2。其具体实施例包含以下步骤:
步骤S1,构建真实的RGB-D透明物体数据集,所述数据集中的每一个样本包含数量为Q的RGB图像、数量为Q的深度图像、数量为Q的Edge图像和数量为Q的mask图像。具体实施过程说明如下:
S1-1,通过RGB-D传感器采集P个透明物体的Q张RGB图像和Q张深度图像,并采用边缘提取算法,获取 P×Q张Edge图像;对每张图像标注6D位姿标签;
S1-2,利用3D渲染工具合成P个透明物体的3D模型,使用坐标变换和2D-3D投影,将模型投影到二维图像上,再经过人工优化投影图像,得到每张图像的mask图像;
S1-3,经过上面两步的处理,得到P个数据样本,每个样本包含数量为Q的RGB图像、数量为Q的深度图像、数量为Q的Edge图像以及数量为Q的mask图像,并且每张图像具有6D位姿标签;将P个样本作为透明物体6D姿态估计数据集。
步骤S2,构建深度学习网络模型,该模型包括纹理特征提取网络、边缘特征提取网络、几何特征提取网络以及关键点检测网络,其中,纹理特征提取网络、边缘特征提取网络、几何特征提取网络在附图1中分别标记为M1、M2、M3,关键点检测网络如附图2所示,附图2中M4表示多头注意力模块。特征提取网络都由编解码网络组成,关键点检测网络由多头自注意力模块和卷积层组成,多头自注意力模块数量为D;纹理特征提取网络和边缘特征提取网络的编解码网络为残差网络;几何特征提取网络的编解码网络为点云提取网络;具体的步骤为:
S2-1,将一个样本的一张RGB图像输入纹理特征提取网络,经过纹理特征提取网络的编解码网络,输出大小为
Figure 955345DEST_PATH_IMAGE001
的纹理特征图和预测的Edge图像,
Figure 940618DEST_PATH_IMAGE001
表示特征图的层数×高×宽。纹理特征图通过两层卷积层,并利用mask图像随机采样物体上的N个像素点,如果采样的点数不足N,则复制最后一个边缘点补足到N,并记住这N个点的坐标,最后输出大小为
Figure 250377DEST_PATH_IMAGE017
的纹理特征向量,训练时使用数据集中的ground truth mask图像,测试时使用网络预测出的mask图像;将同一个样本的一张Edge图像输入边缘特征提取网络,经过边缘特征提取网络的编解码网络,输出
Figure 258784DEST_PATH_IMAGE003
的边缘特征图,利用上述保存的N个点的坐标在同样位置采样N个点,最后输出大小为
Figure 312191DEST_PATH_IMAGE018
的边缘特征向量;为了减少计算量,将同个样本的一张深度图像转成点云后,先按照同样的方法采样N个点,再输入点云特征提取网络,最后输出大小为
Figure 151971DEST_PATH_IMAGE005
的几何特征向量;
S2-2,将上一步得到的纹理特征向量、边缘特征向量和几何特征向量输入关键点检测网络进行特征融合,关键点检测网络的自注意力模块输出融合后的全局特征,大小为
Figure 570314DEST_PATH_IMAGE006
S2-3,将上一步得到的特征向量通过关键点检测网络的卷积层,最后投票得到关键点,并通过最小二乘法获取透明物体在当前图像中的6D位姿。
进一步的,所述步骤S2中D为2,C 1为32,C 2为128,N为2048。
进一步的,所述步骤S2中纹理特征提取网络使用ResNet34为基准网络。
进一步的,所述步骤S2中边缘特征提取网络使用ResNet18为基准网络。
进一步地,所述步骤S2中几何特征提取网络使用PointNet++为基准网络。
步骤S3,利用S1构建的真实RGB-D透明物体数据集对步骤S2构建的深度学习模型进行训练;
S3-1,在步骤S2-1中,将RGB图像送入纹理信息特征网络得到预测的透明物体mask图像,设N为像素点的个数,
Figure 862755DEST_PATH_IMAGE007
为平衡参数,
Figure 719852DEST_PATH_IMAGE008
为聚焦参数,
Figure 850357DEST_PATH_IMAGE009
是第i个像素点属于每个类的置信度,
Figure 501918DEST_PATH_IMAGE010
是ground truth类标签的one-hot表示,定义语义分割损失函数:
Figure 547235DEST_PATH_IMAGE011
公式中:
Figure 880127DEST_PATH_IMAGE012
,并通过最小优化求解:
Figure 428920DEST_PATH_IMAGE013
Figure 516962DEST_PATH_IMAGE019
Figure 721678DEST_PATH_IMAGE008
的值可根据需要选取,本实施例
Figure 920578DEST_PATH_IMAGE020
取1,
Figure 323878DEST_PATH_IMAGE008
取2;
S3-2,在步骤S2-2中,得到全局特征向量,为使得每个像素点尽可能指向关键点,设N为像素点个数,M为关键点个数,
Figure 520504DEST_PATH_IMAGE014
是网络预测的特征向量,
Figure 274834DEST_PATH_IMAGE015
是ground truth向量,其中每一行向量为像素点i指向关键点j的单位向量,定义关键点检测损失函数:
Figure 11845DEST_PATH_IMAGE016
进一步地,以语义分割损失
Figure 971449DEST_PATH_IMAGE021
和关键点检测损失
Figure 401293DEST_PATH_IMAGE022
为目标,使用反向传播算法对S-2中网络结构进行训练;
进一步地,关键点检测网络的注意力模块以自监督学习进行无监督训练的。
步骤S4,利用步骤S3训练好的深度学习模型,将RGB图像输入到纹理特征提取网络,将边缘提取算法输出的Edge图像输入到边缘特征提取网络,深度图像输入到几何特征提取网络,网络输出检测出来的一组关键点,检测出来的关键点和在透明物体模型上采样得到的关键点通过最小二乘法计算得到透明物体在当前图像中的6D位姿。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种面向机械臂抓取的透明物体6D姿态估计方法,其特征在于,包含以下步骤:
步骤S1,构建真实透明物体数据集,所述数据集中的每一个物体包含多张RGB图像和深度图像;
步骤S2,构建三分支深度学习网络模型,第一个分支输入数据为RGB图像,第二个分支输入数据为Edge图像,第三个分支输入数据为深度图像;所述深度学习网络集成纹理特征提取网络、边缘特征提取网络、几何特征提取网络和关键点检测网络进行姿态估计;所述纹理特征提取网络、边缘特征提取网络以及几何特征提取网络为编解码结构,关键点检测网络融合纹理特征、边缘特征和几何特征,并采用注意力机制,获取全局特征;
步骤S3,利用S1构建的真实透明物体数据集对步骤S2构建的深度学习网络模型进行训练;
步骤S4,利用步骤S3训练好的模型进行透明物体6D姿态估计。
2.根据权利要求1所述的面向机械臂抓取的透明物体6D姿态估计方法,其特征在于:所述步骤S1具体为:
S1-1,通过RGB-D传感器采集P个透明物体的Q张RGB图像和Q张深度图像,并采用边缘提取算法,获取P×Q张Edge图像;对每张图像标注6D位姿标签;
S1-2,利用3D渲染工具合成P个透明物体的3D模型,使用坐标变换和2D-3D投影,将模型投影到二维图像上,再经过人工优化投影图像,得到每张图像的mask图像;
S1-3,经过上面两步的处理,得到P个数据样本,每个样本包含数量为Q的RGB图像、数量为Q的深度图像、数量为Q的Edge图像以及数量为Q的mask图像,并且每张图像具有6D位姿标签;将P个样本作为透明物体6D姿态估计数据集。
3.根据权利要求1所述的面向机械臂抓取的透明物体6D姿态估计方法,其特征在于:所述步骤S2的具体过程如下:
S2-1,将一个样本的一张RGB图像输入纹理特征提取网络,经过纹理特征提取网络的编解码网络,输出大小为
Figure 502590DEST_PATH_IMAGE001
的纹理特征图和预测的Edge图像,
Figure 568504DEST_PATH_IMAGE001
表示特征图的层数×高×宽;纹理特征图通过两层卷积层,并利用mask图像随机采样物体上的N个点,如果采样的点数不足N,则复制最后一个边缘点补足到N,并记住这N个点的坐标,最后输出大小为
Figure 305516DEST_PATH_IMAGE002
的纹理特征向量,将同一个样本的一张Edge图像输入边缘特征提取网络,经过边缘特征提取网络的编解码网络,输出
Figure 828901DEST_PATH_IMAGE003
的边缘特征图,利用上述保存的N个点的坐标在同样位置采样N个点,最后输出大小为
Figure 321062DEST_PATH_IMAGE004
的边缘特征向量;将同个样本的一张深度图像转成点云后,先按照同样的方法采样N个点,再输入点云特征提取网络,最后输出大小为
Figure 110158DEST_PATH_IMAGE005
的几何特征向量;
S2-2,将上一步得到的纹理特征向量、边缘特征向量和几何特征向量输入关键点检测网络进行特征融合,关键点检测网络的自注意力模块输出融合后的全局特征,大小为
Figure 713178DEST_PATH_IMAGE006
S2-3,将上一步得到的特征向量通过关键点检测网络的卷积层,最后投票得到关键点,并通过最小二乘法获取透明物体在当前图像中的6D位姿。
4.根据权利要求1所述的面向机械臂抓取的透明物体6D姿态估计方法,其特征在于:所述步骤S3训练深度学习网络模型时构建损失函数的过程如下:
S3-1,对于步骤S2-1中的纹理特征提取网络,将RGB图像送入纹理信息特征网络得到预测的透明物体mask图像,设N为像素点的个数,
Figure 356649DEST_PATH_IMAGE007
为平衡参数,
Figure 691815DEST_PATH_IMAGE008
为聚焦参数,
Figure 732321DEST_PATH_IMAGE009
是第i个像素点属于每个类的置信度,
Figure 873452DEST_PATH_IMAGE010
是ground truth类标签的one-hot表示,定义语义分割损失函数:
Figure 371430DEST_PATH_IMAGE011
公式中:
Figure 690547DEST_PATH_IMAGE012
,并通过最小优化求解:
Figure 906765DEST_PATH_IMAGE013
S3-2,对于步骤S2-2中的关键点检测网络, M为关键点个数,
Figure 851587DEST_PATH_IMAGE014
是网络预测的特征向量,
Figure 204071DEST_PATH_IMAGE015
是ground truth向量,其中每一行向量为像素点i指向关键点j的单位向量,定义关键点检测损失函数:
Figure 146619DEST_PATH_IMAGE016
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
6.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN202111488783.9A 2021-12-08 2021-12-08 面向机械臂抓取的透明物体6d姿态估计方法 Pending CN114119753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111488783.9A CN114119753A (zh) 2021-12-08 2021-12-08 面向机械臂抓取的透明物体6d姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111488783.9A CN114119753A (zh) 2021-12-08 2021-12-08 面向机械臂抓取的透明物体6d姿态估计方法

Publications (1)

Publication Number Publication Date
CN114119753A true CN114119753A (zh) 2022-03-01

Family

ID=80367286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111488783.9A Pending CN114119753A (zh) 2021-12-08 2021-12-08 面向机械臂抓取的透明物体6d姿态估计方法

Country Status (1)

Country Link
CN (1) CN114119753A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663514A (zh) * 2022-05-25 2022-06-24 浙江大学计算机创新技术研究院 一种基于多模态稠密融合网络的物体6d姿态估计方法
CN115115851A (zh) * 2022-08-30 2022-09-27 广州市玄武无线科技股份有限公司 一种商品姿态估计的方法、装置及存储介质
CN117115208A (zh) * 2023-10-20 2023-11-24 城云科技(中国)有限公司 透明物体跟踪模型及其构建方法和应用

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090284529A1 (en) * 2008-05-13 2009-11-19 Edilson De Aguiar Systems, methods and devices for motion capture using video imaging
CN110020627A (zh) * 2019-04-10 2019-07-16 浙江工业大学 一种基于深度图与特征融合的行人检测方法
CN110322510A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种利用轮廓信息的6d位姿估计方法
CN110866497A (zh) * 2019-11-14 2020-03-06 合肥工业大学 基于点线特征融合的机器人定位与建图方法和装置
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN111401270A (zh) * 2020-03-19 2020-07-10 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其***
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
US20210004984A1 (en) * 2018-09-25 2021-01-07 Tsinghua University Method and apparatus for training 6d pose estimation network based on deep learning iterative matching
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
US11049277B1 (en) * 2020-07-17 2021-06-29 Microsoft Technology Licensing, Llc Using 6DOF pose information to align images from separated cameras
CN113076794A (zh) * 2021-02-08 2021-07-06 广州高维网络科技有限公司 一种手势识别方法
CN113111857A (zh) * 2021-05-10 2021-07-13 金华高等研究院 基于多模态信息融合的人体姿态估计方法
WO2021163103A1 (en) * 2020-02-13 2021-08-19 Northeastern University Light-weight pose estimation network with multi-scale heatmap fusion
CN113313810A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种透明物体的6d姿态参数计算方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113538569A (zh) * 2021-08-11 2021-10-22 广东工业大学 一种弱纹理物***姿估计方法和***

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090284529A1 (en) * 2008-05-13 2009-11-19 Edilson De Aguiar Systems, methods and devices for motion capture using video imaging
US20210004984A1 (en) * 2018-09-25 2021-01-07 Tsinghua University Method and apparatus for training 6d pose estimation network based on deep learning iterative matching
CN110020627A (zh) * 2019-04-10 2019-07-16 浙江工业大学 一种基于深度图与特征融合的行人检测方法
CN110322510A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种利用轮廓信息的6d位姿估计方法
CN110866497A (zh) * 2019-11-14 2020-03-06 合肥工业大学 基于点线特征融合的机器人定位与建图方法和装置
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
WO2021163103A1 (en) * 2020-02-13 2021-08-19 Northeastern University Light-weight pose estimation network with multi-scale heatmap fusion
CN111401270A (zh) * 2020-03-19 2020-07-10 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其***
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
US11049277B1 (en) * 2020-07-17 2021-06-29 Microsoft Technology Licensing, Llc Using 6DOF pose information to align images from separated cameras
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
CN113076794A (zh) * 2021-02-08 2021-07-06 广州高维网络科技有限公司 一种手势识别方法
CN113111857A (zh) * 2021-05-10 2021-07-13 金华高等研究院 基于多模态信息融合的人体姿态估计方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113313810A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种透明物体的6d姿态参数计算方法
CN113538569A (zh) * 2021-08-11 2021-10-22 广东工业大学 一种弱纹理物***姿估计方法和***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUIKAI LIU 等: "A 3D Keypoints Voting Network for 6DoF Pose Estimation in Indoor Scene", 《MACHINES》 *
吕成志: "面向复杂场景的目标六自由度姿态估计关键技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
梁达勇 等: "多特征像素级融合的遮挡物体6DoF姿态估计研究", 《计算机科学与探索》 *
陈帆: "基于深度和纹理信息融合的三维物体识别和6D姿态估计研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663514A (zh) * 2022-05-25 2022-06-24 浙江大学计算机创新技术研究院 一种基于多模态稠密融合网络的物体6d姿态估计方法
CN115115851A (zh) * 2022-08-30 2022-09-27 广州市玄武无线科技股份有限公司 一种商品姿态估计的方法、装置及存储介质
CN115115851B (zh) * 2022-08-30 2023-01-31 广州市玄武无线科技股份有限公司 一种商品姿态估计的方法、装置及存储介质
CN117115208A (zh) * 2023-10-20 2023-11-24 城云科技(中国)有限公司 透明物体跟踪模型及其构建方法和应用

Similar Documents

Publication Publication Date Title
CN114119753A (zh) 面向机械臂抓取的透明物体6d姿态估计方法
CN113205466B (zh) 一种基于隐空间拓扑结构约束的残缺点云补全方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及***
Xu et al. GraspCNN: Real-time grasp detection using a new oriented diameter circle representation
CN112053441B (zh) 一种室内鱼眼图像的全自动布局恢复方法
Cheng et al. A vision-based robot grasping system
CN108491763A (zh) 三维场景识别网络的无监督训练方法、装置及存储介质
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取***
Zhuang et al. Instance segmentation based 6D pose estimation of industrial objects using point clouds for robotic bin-picking
Hong et al. USOD10K: a new benchmark dataset for underwater salient object detection
CN114882524A (zh) 一种基于全卷积神经网络的单目三维手势估计方法
Yin et al. Overview of robotic grasp detection from 2D to 3D
CN115205654A (zh) 一种新型基于关键点约束的单目视觉3d目标检测方法
Zhang et al. EANet: Edge-attention 6D pose estimation network for texture-less objects
Dong et al. Robotic grasp detection based on transformer
Mei et al. Camera-based 3d semantic scene completion with sparse guidance network
Wang et al. Unsupervised representation learning for visual robotics grasping
CN117011380A (zh) 一种目标物体的6d位姿估计方法
Zhang et al. Exploring semantic information extraction from different data forms in 3D point cloud semantic segmentation
CN115019202A (zh) 一种应用于服务型移动机械臂的分步式抓取检测方法
CN114937153A (zh) 弱纹理环境下基于神经网络的视觉特征处理***及方法
CN111401203A (zh) 基于多维图像融合的目标识别方法
Zhang et al. DSNet: Double Strand Robotic Grasp Detection Network Based on Cross Attention
Ouyang et al. A Lightweight Object Detector with Deformable Upsampling for Marine Organism Detection
Wu et al. Real-Time Pixel-Wise Grasp Detection Based on RGB-D Feature Dense Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230929