CN112233181A - 6d位姿识别的方法、装置及计算机存储介质 - Google Patents

6d位姿识别的方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN112233181A
CN112233181A CN202011179162.8A CN202011179162A CN112233181A CN 112233181 A CN112233181 A CN 112233181A CN 202011179162 A CN202011179162 A CN 202011179162A CN 112233181 A CN112233181 A CN 112233181A
Authority
CN
China
Prior art keywords
information
pose
point cloud
map
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011179162.8A
Other languages
English (en)
Inventor
孙靖文
石超
言宏亮
伍广彬
于波
张华�
夏壮
娄常绪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Geling Institute Of Artificial Intelligence And Robotics
Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd
SHENZHEN GUANGNING INDUSTRIAL CO LTD
Original Assignee
Shenzhen Geling Institute Of Artificial Intelligence And Robotics
Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd
SHENZHEN GUANGNING INDUSTRIAL CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Geling Institute Of Artificial Intelligence And Robotics, Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd, SHENZHEN GUANGNING INDUSTRIAL CO LTD filed Critical Shenzhen Geling Institute Of Artificial Intelligence And Robotics
Priority to CN202011179162.8A priority Critical patent/CN112233181A/zh
Publication of CN112233181A publication Critical patent/CN112233181A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种6D位姿识别的方法、装置及计算机存储介质,涉及机器视觉技术领域。包括:获取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息;其中第一分割信息包括第一分割掩码;获取第一目标深度图对应的第一点云信息;将第一点云信息、第一目标RGB图以及第一分割信息输入到已训练好的位姿识别网络中;根据位姿识别网络的输出结果,获取待测物体的6D位姿信息。通过已训练好的位姿识别网络提取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息的特征获得6D位姿信息,可以充分利用待测物体的特征,在强反光、弱纹理和遮挡严重等复杂环境下也能准确测量6D位姿,从而提高位姿识别的准确度。

Description

6D位姿识别的方法、装置及计算机存储介质
技术领域
本发明涉及人工智能领域,特别涉及一种6D位姿识别的方法、装置及计算机存储介质。
背景技术
随着深度相机的普及以及3D视觉研究的发展,机械臂开始承担如智能分拣、柔性上下料等复杂的任务。以工业产线的零部件抓取为例,精确测量目标零部件的6D位姿是引导机器人完成抓取操作的基础,其中,位姿是一个相对的概念,指的是两个坐标系之间的位移和旋转变换,而两个坐标系分别表示以物体上初始位置以及旋转、平移后的位置建立的坐标系,6D指6个自由度,包括3个自由度的平移和3个自由度的旋转。但是工业零部件具有结构复杂、表面纹理单一、反光性强等特点,且相互之间遮挡严重;通过基于点云信息的6D位姿识别的方法,由于点云数据固有的稀疏性、冗余性和无序性,需要大量的数据计算才能保证位姿识别的准确度;而基于RGB图进行识别的方法,在低纹理物体的测量场景,准确度低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供了一种6D位姿识别的方法、装置和计算机存储介质,可以提高位姿识别的准确度。
第一方面,本发明提供一种6D位姿识别的方法,包括如下步骤:
获取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息;其中,所述第一分割信息包括第一分割掩码;
获取所述第一目标深度图对应的第一点云信息;
将所述第一点云信息、所述第一目标RGB图以及所述第一分割信息输入到已训练好的位姿识别网络中;
根据所述位姿识别网络的输出结果,获取所述待测物体的6D位姿信息。
根据本发明第一方面的上述实施例,至少具有如下有益效果:通过已训练好的位姿识别网络提取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息的特征获得6D位姿信息,可以充分利用待测物体的特征,在强反光、弱纹理和遮挡严重等复杂环境下也能准确测量6D位姿,从而提高位姿识别的准确度。
根据本发明第一方面的一些实施例,所述获取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息;其中,所述第一分割信息包括第一分割掩码,包括如下步骤:
获取原始深度图以及原始RGB图;
通过图像分割算法对所述原始RGB图进行分割处理,得到所述第一目标RGB图以及所述第一分割信息,所述第一分割信息包括第一分割掩码;
根据所述第一分割信息的第一分割掩码对所述原始深度图进行裁剪处理,得到所述第一目标深度图。
通过采用第一分割掩码对原始深度图进行裁剪,可以去除冗余的数据对目标图像的影响,以提高位姿识别的准确度。
根据本发明第一方面的一些实施例,所述获取所述第一目标深度图对应的第一点云信息,包括如下步骤:
获取所述第一目标深度图在相机坐标系下的第二点云信息;
将所述第二点云信息进行点云去噪处理,得到所述第一点云信息。
通过进行点云去噪处理,可以去除环境噪音、相机噪音等因素影响,避免大量无用特征的提取,从而提高位姿识别的效率。
根据本发明第一方面的一些实施例,所述获取所述第一目标深度图对应的第一点云信息,还包括如下步骤:
将去噪处理得到的所述第一点云信息中点的个数与预设的个数进行比较;
根据比较结果,选择将所述第一点云信息进行上采样或下采样处理。
根据本发明第一方面的一些实施例,所述根据所述位姿识别网络的输出结果,获取所述待测物体的6D位姿信息,包括如下步骤:
获取所述位姿识别网络输出的所述待测物体的若干预测位姿信息,其中,所述预测位姿信息包括第一旋转信息、旋转置信度、第一平移信息以及平移置信度,所述旋转置信度与所述第一旋转信息一一对应,所述平移置信度与所述第一平移信息一一对应;
获取第二旋转信息,所述第二旋转信息为所有预测位姿信息中值最大的旋转置信度对应的所述第一旋转信息;
获取第二平移信息,所述第二平移信息为所有预测位姿信息中值最大的所述平移置信度对应的所述第一平移信息;
根据所述第二旋转信息以及所述第二平移信息得到所述6D位姿信息。
通过分别获取最大的旋转置信度对应的第二旋转信息以及最大的平移置信度对应的第二平移信息,可以获取到与真实情况最接近的6D位姿信息。
根据本发明第一方面的一些实施例,所述位姿识别网络通过损失函数进行优化,所述损失函数设置为待训练物体的预测点云与真实点云之间的平均平方距离。通过平均平方距离进行位姿识别网络优化评估,可以使得预测位姿信息与真实位姿信息更加接近,从而提高6D位姿识别的准确率。
根据本发明第一方面的一些实施例,所述位姿识别网络用于对待测物体进行颜色特征图、几何特征图、目标点云特征图、第一融合特征图以及第二融合特征图的提取;
所述第一融合特征图通过MaxPooling层提取第三融合特征图的骨干特征得到,所述第三融合特征图通过将所述颜色特征图与所述目标点云特征图进行像素级图像融合处理得到;
所述第二融合特征图通过将所述第一融合特征与所述几何特征图进行密集融合得到。
通过解耦待测物体的第一目标RGB图、第一分割掩码和第一点云信息处理过程,有效提取第一目标RGB图对应的颜色特征、第一分割掩码对应的几何特征和第一点云信息对应的点云特征,并进一步基于颜色特征与点云特征的内在映射关系实现像素级特征密集融合,得到囊括颜色、几何、局部、全局的有效特征,提高特征利用效率。
根据本发明第一方面的一些实施例,所述6D位姿识别的方法还包括如下步骤:
获取所述6D位姿信息的位姿精度;
将所述位姿精度与预设的参考位姿精度进行比较;
根据比较结果,通过ICP算法对所述6D位姿信息进行迭代处理,得到与所述参考位姿精度匹配的6D位姿信息。
通过ICP算法进一步获得距离真实位姿更为接近的点,从而可以提高6D位姿识别的准确度。
第二方面,本发明提供一种6D位姿识别的装置,包括:
图像分割模块,用于得到待测物体的第一点云信息、第一目标RGB图以及第一分割信息;
位姿识别网络训练模块,用于获取训练好的位姿识别网络;
位姿处理模块,用于将所述第一点云信息、第一目标RGB图以及第一分割信息输入所述位姿识别网络获得6D位姿信息。
由于第二方面的6D位姿识别的装置应用第一方面任一项的6D位姿识别的方法,因此具有本发明第一方面的所有有益效果。
第三方面,本发明提供一种计算机存储介质,包括存储有计算机可执行指令,所述计算机可执行指令用于第一方面任一项的6D位姿识别的方法。
由于第三方面的计算机存储介质可执行第一方面任一项的6D位姿识别的方法,因此具有本发明第一方面的所有有益效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的6D位姿识别的方法的主要步骤图;
图2是本发明实施例的6D位姿识别的方法的第一点云信息获取的步骤图;
图3是本发明实施例的6D位姿识别的方法的位姿信息获取的步骤图;
图4是本发明实施例的6D位姿识别的方法的位姿识别网络的特征图组成示意图;
图5是本发明实施例的6D位姿识别的装置的结构示意图。
附图标记:
图像采集模块100、图像分割模块200、位姿识别网络训练模块300、位姿处理模块400。
具体实施方式
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。此外,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
下面参照图1至图5描述本发明的6D位姿识别的方法、装置、***及计算机存储介质。
第一方面,如图1所示,本发明提供一种6D位姿识别的方法,包括如下步骤:
步骤S100、获取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息;其中,第一分割信息包括第一分割掩码。
步骤S200、获取第一目标深度图对应的第一点云信息。
步骤S300、将第一点云信息、第一目标RGB图以及第一分割信息输入到已训练好的位姿识别网络中。
步骤S400、根据所述位姿识别网络的输出结果,获取待测物体的6D位姿信息。
应理解的是,在一些实施例中,第一分割信息还包括待测物体的类别,以使位姿识别网络可以根据第一分割信息加载不同的模型进行学习,以获得与待测物体匹配的6D位姿信息。
因此,通过已训练好的位姿识别网络提取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息的特征获得6D位姿信息,可以充分利用待测物体的特征,在强反光、弱纹理和遮挡严重等复杂环境下也能准确测量6D位姿,从而提高位姿识别的准确度。
在本发明第一方面的一些实施例中,步骤S100包括如下步骤:
获取原始深度图以及原始RGB图。
应理解的是,原始深度图和原始RGB图可以通过3D相机获取。
通过图像分割算法对原始RGB图进行分割处理,得到第一目标RGB图以及第一分割信息,第一分割信息包括第一分割掩码。
根据第一分割信息的第一分割掩码对原始深度图进行裁剪处理,得到第一目标深度图。
通过采用第一分割掩码对原始深度图进行裁剪,可以去除冗余的数据对目标图像的影响,以提高位姿识别的准确度。
应理解的是,存在多个物体在同一原始深度图中以及同一原始RGB图中,因此,可以通过重复执行获取第一目标RGB图、第一目标深度图、第一分割信息的方式依次获得下一待测物体的第一目标RGB图、第一目标深度图、第一分割信息,从而可以进行下一待测物体的位姿识别。
在本发明第一方面的一些实施例中,如图2所示,步骤S200包括如下步骤:
步骤S210、获取第一目标深度图在相机坐标系下的第二点云信息。
应理解的是,通过3D相机内参,可以将深度图信息转化为相机坐标系下的n*3的第二点云信息。假设裁剪后的RGB区域中的一个点P的坐标为(u,v),3D相机的内参矩阵为K,P点到相机平面的距离d,点P在相机坐标系下的点为(X,Y,Z),则:
Figure BDA0002749598810000051
其中,fx,fy,cx,cy均为相机的内参,此时,根据上述公式以及Z的值等同于d可以获得X,Y,Z的值分别如下:
Figure BDA0002749598810000052
Figure BDA0002749598810000053
Z=d
步骤S220、将第二点云信息进行点云去噪处理,得到第一点云信息。
应理解的是,由于环境噪音、相机噪音等因素影响,转换后的点云存在噪声,且冗余性较高,因此需要对第二点云信息进行点云去噪处理。在一些实施例中,通过DBSCAN算法对第二点云信息进行去噪处理。在另一些实施例中,会通过双边滤波算法进行去噪处理。
通过进行点云去噪处理,可以去除环境噪音、相机噪音等因素影响,避免大量无用特征的提取,从而提高位姿识别的效率。
根据本发明第一方面的一些实施例,如图2所示,步骤S220之后还包括如下步骤:
步骤S230、将去噪处理得到的第一点云信息中点的个数与预设的个数进行比较。
应理解的是,当进行去噪后,存在第一点云信息的点个数过多或者过少从而影响位姿识别网络的判断准确度和效率,因此可以通过减少第一点云信息中点的个数或者增加第一点云信息中的个数,从而做到提升待测物体识别的准确度和效率。
步骤S240、根据比较结果,选择将第一点云信息进行上采样或下采样处理。
应理解的是,当第一点云信息中点的个数大于预设的个数时,进行下采样处理。当去第一点云信息中点的个数小于预设的个数时,进行上采样处理。当第一点云信息中点的个数等于预设的个数时,保持现状。
应理解的是,在一些实施例中,下采样可以通过FPS算法处理。
在本发明第一方面的一些实施例中,如图3所示,步骤S400包括如下步骤:
步骤S410、获取位姿识别网络输出的待测物体的若干预测位姿信息,其中,预测位姿信息包括第一旋转信息、旋转置信度、第一平移信息以及平移置信度,旋转置信度与第一旋转信息一一对应,平移置信度与第一平移信息一一对应。
应理解的是,对于第一点云信息中的每个点均有一个对应的预测位姿信息。
步骤S420、获取第二旋转信息,第二旋转信息为所有预测位姿信息中值最大的旋转置信度对应的第一旋转信息。
应理解的是,当旋转置信度的值越大时,表示第一旋转信息与真实的待测物体的旋转角度越接近。
步骤S430、获取第二平移信息,第二平移信息为所有预测位姿信息中值最大的平移置信度对应的第一平移信息。
应理解的是,当平移置信度的值越大时,表示第一平移信息与真实的待测物体的平移距离越接近。
步骤S440、根据第二旋转信息以及第二平移信息得到6D位姿信息。
通过分别获取最大的旋转置信度对应的第二旋转信息以及最大的平移置信度对应的第二平移信息,可以获取到与真实情况最接近的6D位姿信息。
在本发明第一方面的一些实施例中,位姿识别网络通过损失函数进行优化,损失函数设置为待训练物体的预测点云与真实点云之间的平均平方距离。通过平均平方距离进行位姿识别网络优化评估,可以使得预测位姿信息与真实位姿信息更加接近,从而提高6D位姿识别的准确率。
应理解的是,在位姿识别网络训练过程中,由于被训练的物体的真实位姿信息是可知的,则待训练物体的每个点的坐标信息可通过真实位姿信息获得,即获得真实点云的信息。因此,当通过位姿识别网络得到6D位姿信息后,根据6D位姿信息转换得到每个待训练物体的预测点云后,可以获得预测点云与真实点云之间平均平方距离,以评估优化当前的位姿识别网络。此时,假设平均平方距离为
Figure BDA0002749598810000071
Figure BDA0002749598810000072
其中,M表示训练物体的点云信息,m表示训练物体的点云信息的点的个数,q和
Figure BDA0002749598810000073
分别表示预测6D位姿和训练物体的真实6D位姿。其中R,T,
Figure BDA0002749598810000074
分别表示预测6D位姿中的旋转信息和平移信息,以及真实6D位姿的旋转信息和平移信息;Rx+T表示经6D位姿信息转换得到的预测点云中的一个点。
应理解的是,在另一些实施例中,由于三维空间中对称物体可能具有多个正确的旋转矩阵,即多个真实位姿信息,这会导致网络训练时产生误差。因此,对于对称的待训练物体需要对损失函数进行修正。此时,
Figure BDA0002749598810000075
为:
Figure BDA0002749598810000076
在本发明第一方面的一些实施例中,如图4所示,位姿识别网络用于对待测物体进行颜色特征图、几何特征图、目标点云特征图、第一融合特征图以及第二融合特征图的提取;第一融合特征图通过MaxPooling层提取第三融合特征图的骨干特征得到,第三融合特征图通过将颜色特征图与目标点云特征图进行像素级图像融合处理得到;第二融合特征图通过将第一融合特征与几何特征图进行密集融合得到。
应理解的是,在一些实施例中,通过FCNN网络分别对待测物体的第一目标RGB图以及第一分割掩码进行特征提取,从而得到对应的颜色特征图、几何特征图。通过CNN网络提取待测物体的第一目标深度图的目标点云特征得到目标点云特征图。
通过解耦待测物体的第一目标RGB图、第一分割掩码和第一点云信息处理过程,有效提取第一目标RGB图对应的颜色特征、第一分割掩码对应的几何特征和第一点云信息对应的点云特征,并进一步基于颜色特征与点云特征的内在映射关系实现像素级特征密集融合,得到囊括颜色、几何、局部、全局的有效特征,提高特征利用效率。
在本发明第一方面的一些实施例中,6D位姿识别的方法还包括如下步骤:
获取6D位姿信息的位姿精度。
应理解的是,位姿精度用于判断通过6D位姿信息获得的点云信息与待测物体的第一点云信息的误差。
将位姿精度与预设的参考位姿精度进行比较。
根据比较结果,通过ICP算法对6D位姿信息进行迭代处理,得到与参考位姿精度匹配的6D位姿信息。
通过ICP算法进一步获得距离真实位姿更为接近的点,从而可以提高6D位姿识别的准确度。
如图5所示,第二方面,本发明提供一种6D位姿识别的装置,包括:
图像分割模块200,用于得到待测物体的第一点云信息、第一目标RGB图以及第一分割信息;
位姿识别网络训练模块300,用于获取训练好的位姿识别网络;
位姿处理模块400,用于将第一点云信息、第一目标RGB图以及第一分割信息输入位姿识别网络获得6D位姿信息。
由于第二方面的6D位姿识别的装置应用第一方面任一项的6D位姿识别的方法,因此具有本发明第一方面的所有有益效果。
应理解的是,在一些实施例中,6D位姿识别的装置还包括图像采集模块100,用于采集原始图像;此时,图像分割模块200可以根据原始图像得到待测物体的第一点云信息、第一目标RGB图以及第一分割信息。
应理解的是,上文中装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
第三方面,本发明提供一种计算机存储介质,包括存储有计算机可执行指令,计算机可执行指令用于第一方面任一项的6D位姿识别的方法。
由于第三方面的计算机存储介质可执行第一方面任一项的6D位姿识别的方法,因此具有本发明第一方面的所有有益效果。
应理解的是,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
下面参考图1至图5以一个具体的实施例详细描述应用本发明第一方面的6D位姿信息的方法的6D位姿装置。值得理解的是,下述描述仅是示例性说明,而不是对发明的具体限制。
如图1步骤S100,图像分割模块200获取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息,第一分割信息包括第一分割掩码。
具体的,图像采集模块100通过3D相机获取原始深度图以及原始RGB图。
进一步,图像采集模块100将原始深度图和原始RGB图发给图像分割模块200;
进一步,图像分割模块200通过图像分割算法对原始RGB图进行分割处理,得到第一目标RGB图以及第一分割信息,第一分割信息包括第一分割掩码、类别。
进一步,图像分割模块200根据第一分割掩码对原始深度图进行裁剪处理,得到第一目标深度图。
具体的,如图2步骤S210,图像分割模块200获取第一目标深度图在相机坐标系下的第二点云信息。
具体的,通过3D相机内参,可以将深度图信息转化为相机坐标系下的n*3的第二点云信息。假设裁剪后的RGB区域中的一个点P的坐标为(u,v),3D相机的内参矩阵为K,P点到相机平面的距离d,点P在相机坐标系下的点为(X,Y,Z),则:
Figure BDA0002749598810000091
其中,fx,fy,cx,cy均为相机的内参,此时,根据上述公式以及Z的值等同于d可以获得X,Y,Z的值分别如下:
Figure BDA0002749598810000092
Figure BDA0002749598810000093
Z=d
进一步,如步骤S220,图像分割模块200将第二点云信息进行点云去噪处理,得到第一点云信息。
具体的,图像分割模块200通过DBSCAN算法对第二点云信息进行去噪处理。
进一步,如步骤S230,图像分割模块200将第一点云信息中点的个数与预设的个数进行比较。
进一步,如步骤S240,图像分割模块200根据比较结果,选择将第一点云信息进行上采样或下采样处理。
具体的,预设的个数设置为1000。当第一点云信息中点的个数大于1000时,进行下采样处理。当第一点云信息中点的个数小于1000时,进行上采样处理。当第一点云信息中点的个数等于1000时,保持现状。
具体的,图像分割模块200通过FPS算法进行下采样处理。
进一步,如图1步骤S300,将第一点云信息、第一目标RGB图以及第一分割信息输入到位姿识别网络训练模块300中;
进一步,如图1步骤S400,根据所述位姿识别网络的输出结果,获取待测物体的6D位姿信息。
具体的,位姿识别网络训练模块300输出待测物体的若干预测位姿信息,其中,预测位姿信息包括第一旋转信息、旋转置信度、第一平移信息以及平移置信度,旋转置信度与第一旋转信息一一对应,平移置信度与第一平移信息一一对应。
具体的,位姿识别网络训练模块300输出若干四元数q和对应的旋转置信度C1,则四元数q的表达式为:
q=w+xi+yj+zk
其中,||q||=x2+y2+z2+w2=1,此时,第一旋转信息R为:
Figure BDA0002749598810000101
具体的,第一平移信息用矩阵T表示如下:
Figure BDA0002749598810000102
此时,如步骤S410,位姿处理模块400获取位姿识别网络训练模块300输出的待测物体的若干预测位姿信息。
进一步,如步骤S420,位姿处理模块400获取第二旋转信息,第二旋转信息为所有预测位姿信息中值最大的旋转置信度对应的第一旋转信息。
假设第二旋转信息为R*
如步骤S430,位姿处理模块400获取第二平移信息,第二平移信息为所有预测位姿信息中值最大的平移置信度对应的第一平移信息。
假设第二平移信息为T*
此时,如步骤S440,待测物体的6D位姿信息如下:
Figure BDA0002749598810000111
进一步,位姿处理模块400获取6D位姿信息的位姿精度。
进一步,位姿处理模块400将位姿精度与预设的参考位姿精度进行比较。
进一步,位姿处理模块400根据比较结果,通过ICP算法对6D位姿信息进行迭代处理,得到与参考位姿精度匹配的6D位姿信息。
具体的,当位姿精度不满足参考位姿精度时,继续对6D位姿信息进行迭代处理直至得到与参考位姿精度匹配的6D位姿信息。
此时,位姿处理模块400输出待测物体的6D位姿信息。同时,重复上述步骤,获取原始深度图和原始RGB图中下一待测物体的6D位置信息。
具体的,位姿识别网络训练模块300进行如下处理得到训练好的位姿识别网络。
位姿识别网络对待训练的物体进行颜色特征图、几何特征图、目标点云特征图、第一融合特征图以及第二融合特征图的提取;其中,第一融合特征图通过MaxPooling层提取第三融合特征图的骨干特征得到,第三融合特征图通过将颜色特征图与目标点云特征图进行像素级图像融合处理得到;第二融合特征图通过将第一融合特征与几何特征图进行密集融合得到。
具体的,如图4所示,通过FCNN网络对待训练物体的第二目标RGB图片和第二分割掩码进行特征提取,二者分别被映射为维度为batch_size×32×H×W的颜色特征图、几何特征图,其中颜色特征图记为img_emb,几何特征图记为mask_emb,即每个像素点被映射为32维的特征向量,其中batch_size=1,表示每次训练选取的样本数,3表示通道数,H和W表示第二目标RGB图的高和宽;然后依据索引choose从img_emb和mask_emb选取对应像素所提取的特征,记为img_choosed_emb和mask_choosed_emb,维度为batch_size×32×1000;再利用CNN网络提取待训练物体的第二深度图对应的第三点云信息的点云特征,得到目标点云特征图;并将目标点云特征图逐层与颜色特征图的img_choosed_emb进行像素级密集融合,构成“颜色+点云”的特征描述方法,得到第三融合特征图。此时,再利用MaxPooling层提取像素级密集融合后的骨干特征,得到第一融合特征图,将第一融合特征图记为pointfeat,维度为batch_size×1408×1000;最后将mask_emb和pointfeat密集融合,构成最后的全局特征ap_x,维度为batch_size×1440×1000。此时,位姿识别网络建立完成。
进一步,位姿识别网络通过损失函数进行优化,损失函数设置为待训练物体的预测点云与真实点云之间的平均平方距离。
此时,假设平均平方距离为
Figure BDA0002749598810000121
Figure BDA0002749598810000122
M表示训练物体的点云信息,m表示训练物体的点云信息的点的个数,q和
Figure BDA0002749598810000123
分别表示预测6D位姿和训练物体的真实6D位姿。其中R,T,
Figure BDA0002749598810000124
分别表示预测6D位姿中的旋转信息和平移信息,以及真实6D位姿的旋转信息和平移信息;Rx+T表示经6D位姿信息转换得到的预测点云中的一个点。
进一步,对于对称的待训练物体进行损失函数修正。此时,
Figure BDA0002749598810000125
为:
Figure BDA0002749598810000126
此时,如步骤S300中,位姿识别网络训练模块300会对待测的物体进行颜色特征图、几何特征图、目标点云特征图、第一融合特征图以及第二融合特征图的提取,从而输出待测的物体的若干预测位姿信息。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种6D位姿识别的方法,其特征在于,包括如下步骤:
获取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息;其中,所述第一分割信息包括第一分割掩码;
获取所述第一目标深度图对应的第一点云信息;
将所述第一点云信息、所述第一目标RGB图以及所述第一分割信息输入到已训练好的位姿识别网络中;
根据所述位姿识别网络的输出结果,获取所述待测物体的6D位姿信息。
2.根据权利要求1所述的6D位姿识别的方法,其特征在于,
所述获取待测物体的第一目标深度图、第一目标RGB图以及第一分割信息,包括如下步骤:
获取原始深度图以及原始RGB图;
通过图像分割算法对所述原始RGB图进行分割处理,得到所述第一目标RGB图以及所述第一分割信息;
根据所述第一分割信息的第一分割掩码对所述原始深度图进行裁剪处理,得到所述第一目标深度图。
3.根据权利要求1所述的6D位姿识别的方法,其特征在于,
所述获取所述第一目标深度图对应的第一点云信息,包括如下步骤:
获取所述第一目标深度图在相机坐标系下的第二点云信息;
将所述第二点云信息进行点云去噪处理,得到所述第一点云信息。
4.根据权利要求3所述的6D位姿识别的方法,其特征在于,
所述获取所述第一目标深度图对应的第一点云信息,还包括如下步骤:
将去噪处理得到的所述第一点云信息中点的个数与预设的个数进行比较;
根据比较结果,选择将所述第一点云信息进行上采样或下采样处理。
5.根据权利要求1所述的6D位姿识别的方法,其特征在于,
所述根据所述位姿识别网络的输出结果,获取所述待测物体的6D位姿信息,包括如下步骤:
获取所述位姿识别网络输出的所述待测物体的若干预测位姿信息,其中,所述预测位姿信息包括第一旋转信息、旋转置信度、第一平移信息以及平移置信度,所述旋转置信度与所述第一旋转信息一一对应,所述平移置信度与所述第一平移信息一一对应;
获取第二旋转信息,所述第二旋转信息为所有预测位姿信息中值最大的旋转置信度对应的所述第一旋转信息;
获取第二平移信息,所述第二平移信息为所有预测位姿信息中值最大的所述平移置信度对应的所述第一平移信息;
根据所述第二旋转信息以及所述第二平移信息得到所述6D位姿信息。
6.根据权利要求1所述的6D位姿识别的方法,其特征在于,
所述位姿识别网络通过损失函数进行优化,所述损失函数设置为待训练物体的预测点云与真实点云之间的平均平方距离。
7.根据权利要求1至6任一所述的6D位姿识别的方法,其特征在于,
所述位姿识别网络用于对所述待测物体进行颜色特征图、几何特征图、目标点云特征图、第一融合特征图以及第二融合特征图的提取;
所述第一融合特征图通过MaxPooling层提取第三融合特征图的骨干特征得到,所述第三融合特征图通过将所述颜色特征图与所述目标点云特征图进行像素级图像融合处理得到;
所述第二融合特征图通过将所述第一融合特征与所述几何特征图进行密集融合得到。
8.根据权利要求1至6任一所述的6D位姿识别的方法,其特征在于,还包括如下步骤:
获取所述6D位姿信息的位姿精度;
将所述位姿精度与预设的参考位姿精度进行比较;
根据比较结果,通过ICP算法对所述6D位姿信息进行迭代处理,得到与所述参考位姿精度匹配的6D位姿信息。
9.一种6D位姿识别的装置,其特征在于,包括:
图像分割模块,用于得到待测物体的第一点云信息、第一目标RGB图以及第一分割信息;
位姿识别网络训练模块,用于获取训练好的位姿识别网络;
位姿处理模块,用于将所述第一点云信息、第一目标RGB图以及第一分割信息输入所述位姿识别网络获得6D位姿信息。
10.一种计算机存储介质,其特征在于,包括存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至8中任一项所述的6D位姿识别的方法。
CN202011179162.8A 2020-10-29 2020-10-29 6d位姿识别的方法、装置及计算机存储介质 Pending CN112233181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011179162.8A CN112233181A (zh) 2020-10-29 2020-10-29 6d位姿识别的方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011179162.8A CN112233181A (zh) 2020-10-29 2020-10-29 6d位姿识别的方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112233181A true CN112233181A (zh) 2021-01-15

Family

ID=74110679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011179162.8A Pending CN112233181A (zh) 2020-10-29 2020-10-29 6d位姿识别的方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112233181A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991445A (zh) * 2021-03-03 2021-06-18 网易(杭州)网络有限公司 模型训练方法、姿态预测方法、装置、设备及存储介质
CN113034593A (zh) * 2021-03-09 2021-06-25 深圳市广宁股份有限公司 6d位姿标注方法、***及存储介质
CN113239771A (zh) * 2021-05-07 2021-08-10 中国科学院深圳先进技术研究院 一种姿态估计方法、***及其应用
CN113344942A (zh) * 2021-05-21 2021-09-03 深圳瀚维智能医疗科技有限公司 人体按摩区域分割方法、装置、***及计算机存储介质
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113538569A (zh) * 2021-08-11 2021-10-22 广东工业大学 一种弱纹理物***姿估计方法和***
CN113538576A (zh) * 2021-05-28 2021-10-22 中国科学院自动化研究所 基于双臂机器人的抓取方法、装置及双臂机器人
CN113658195A (zh) * 2021-08-16 2021-11-16 金地(集团)股份有限公司 图像分割方法、装置及电子设备
CN113724329A (zh) * 2021-09-01 2021-11-30 中国人民大学 融合平面与立体信息的目标姿态估计方法、***和介质
CN113978297A (zh) * 2021-11-25 2022-01-28 武汉科技大学 基于3d视觉与力柔顺控制的电动汽车自动充电***
CN115222809A (zh) * 2021-06-30 2022-10-21 达闼科技(北京)有限公司 目标位姿估计方法、装置、计算设备及存储介质
CN116704035A (zh) * 2023-06-28 2023-09-05 北京迁移科技有限公司 工件位姿识别方法、电子设备、存储介质及抓取***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322512A (zh) * 2019-06-28 2019-10-11 中国科学院自动化研究所 结合小样本实例分割和三维匹配的物***姿估计方法
CN110472534A (zh) * 2019-07-31 2019-11-19 厦门理工学院 基于rgb-d数据的3d目标检测方法、装置、设备和存储介质
CN110689562A (zh) * 2019-09-26 2020-01-14 深圳市唯特视科技有限公司 一种基于生成对抗网络的轨迹回环检测优化方法
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
US20200184668A1 (en) * 2018-12-05 2020-06-11 Qualcomm Incorporated Systems and methods for three-dimensional pose determination
CN111489394A (zh) * 2020-03-16 2020-08-04 华南理工大学 物体姿态估计模型训练方法、***、装置及介质
WO2020154966A1 (en) * 2019-01-30 2020-08-06 Baidu.Com Times Technology (Beijing) Co., Ltd. A rgb point clouds based map generation system for autonomous vehicles
CN111639571A (zh) * 2020-05-20 2020-09-08 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法
CN111739161A (zh) * 2020-07-23 2020-10-02 之江实验室 一种有遮挡情况下的人体三维重建方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184668A1 (en) * 2018-12-05 2020-06-11 Qualcomm Incorporated Systems and methods for three-dimensional pose determination
WO2020154966A1 (en) * 2019-01-30 2020-08-06 Baidu.Com Times Technology (Beijing) Co., Ltd. A rgb point clouds based map generation system for autonomous vehicles
CN110322512A (zh) * 2019-06-28 2019-10-11 中国科学院自动化研究所 结合小样本实例分割和三维匹配的物***姿估计方法
CN110472534A (zh) * 2019-07-31 2019-11-19 厦门理工学院 基于rgb-d数据的3d目标检测方法、装置、设备和存储介质
CN110689562A (zh) * 2019-09-26 2020-01-14 深圳市唯特视科技有限公司 一种基于生成对抗网络的轨迹回环检测优化方法
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN111489394A (zh) * 2020-03-16 2020-08-04 华南理工大学 物体姿态估计模型训练方法、***、装置及介质
CN111639571A (zh) * 2020-05-20 2020-09-08 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法
CN111739161A (zh) * 2020-07-23 2020-10-02 之江实验室 一种有遮挡情况下的人体三维重建方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIN ZHANG 等: "Real-time 6D pose estimation from a single RGB image", 《ELSEVIER》, vol. 89, 30 September 2019 (2019-09-30), pages 1 - 11, XP085809150, DOI: 10.1016/j.imavis.2019.06.013 *
张凯霖;张良;: "复杂场景下基于C-SHOT特征的3D物体识别与位姿估计", 计算机辅助设计与图形学学报, no. 05, 15 May 2017 (2017-05-15) *
晋忠孝: "基于3D多视图的物体识别及姿态估计方法", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》, vol. 2019, no. 08, pages 6 - 7 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991445A (zh) * 2021-03-03 2021-06-18 网易(杭州)网络有限公司 模型训练方法、姿态预测方法、装置、设备及存储介质
CN112991445B (zh) * 2021-03-03 2023-10-24 网易(杭州)网络有限公司 模型训练方法、姿态预测方法、装置、设备及存储介质
CN113034593A (zh) * 2021-03-09 2021-06-25 深圳市广宁股份有限公司 6d位姿标注方法、***及存储介质
CN113034593B (zh) * 2021-03-09 2023-12-12 深圳市广宁股份有限公司 6d位姿标注方法、***及存储介质
CN113239771A (zh) * 2021-05-07 2021-08-10 中国科学院深圳先进技术研究院 一种姿态估计方法、***及其应用
CN113344942A (zh) * 2021-05-21 2021-09-03 深圳瀚维智能医疗科技有限公司 人体按摩区域分割方法、装置、***及计算机存储介质
CN113344942B (zh) * 2021-05-21 2024-04-02 深圳瀚维智能医疗科技有限公司 人体按摩区域分割方法、装置、***及计算机存储介质
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113538576A (zh) * 2021-05-28 2021-10-22 中国科学院自动化研究所 基于双臂机器人的抓取方法、装置及双臂机器人
CN115222809B (zh) * 2021-06-30 2023-04-25 达闼科技(北京)有限公司 目标位姿估计方法、装置、计算设备及存储介质
CN115222809A (zh) * 2021-06-30 2022-10-21 达闼科技(北京)有限公司 目标位姿估计方法、装置、计算设备及存储介质
CN113538569A (zh) * 2021-08-11 2021-10-22 广东工业大学 一种弱纹理物***姿估计方法和***
CN113538569B (zh) * 2021-08-11 2023-06-02 广东工业大学 一种弱纹理物***姿估计方法和***
CN113658195B (zh) * 2021-08-16 2024-03-19 金地(集团)股份有限公司 图像分割方法、装置及电子设备
CN113658195A (zh) * 2021-08-16 2021-11-16 金地(集团)股份有限公司 图像分割方法、装置及电子设备
CN113724329A (zh) * 2021-09-01 2021-11-30 中国人民大学 融合平面与立体信息的目标姿态估计方法、***和介质
CN113978297A (zh) * 2021-11-25 2022-01-28 武汉科技大学 基于3d视觉与力柔顺控制的电动汽车自动充电***
CN113978297B (zh) * 2021-11-25 2024-01-26 武汉科技大学 基于3d视觉与力柔顺控制的电动汽车自动充电***
CN116704035A (zh) * 2023-06-28 2023-09-05 北京迁移科技有限公司 工件位姿识别方法、电子设备、存储介质及抓取***
CN116704035B (zh) * 2023-06-28 2023-11-07 北京迁移科技有限公司 工件位姿识别方法、电子设备、存储介质及抓取***

Similar Documents

Publication Publication Date Title
CN112233181A (zh) 6d位姿识别的方法、装置及计算机存储介质
WO2022170844A1 (zh) 一种视频标注方法、装置、设备及计算机可读存储介质
CN107953329B (zh) 物体识别和姿态估计方法、装置及机械臂抓取***
CN111553949B (zh) 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN112164115B (zh) 物***姿识别的方法、装置及计算机存储介质
CN107329962B (zh) 图像检索数据库生成方法、增强现实的方法及装置
CN111144349B (zh) 一种室内视觉重定位方法及***
CN111709980A (zh) 基于深度学习的多尺度图像配准方法和装置
CN109272577B (zh) 一种基于Kinect的视觉SLAM方法
CN113409384A (zh) 一种目标物体的位姿估计方法和***、机器人
CN115131444B (zh) 一种基于单目视觉点胶平台的标定方法
WO2021164887A1 (en) 6d pose and shape estimation method
CN111126412A (zh) 基于特征金字塔网络的图像关键点检测方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN111768452A (zh) 一种基于深度学习的非接触式自动贴图方法
Charco et al. Deep learning based camera pose estimation in multi-view environment
CN111553845A (zh) 一种基于优化的三维重建的快速图像拼接方法
CN112929626A (zh) 一种基于智能手机影像的三维信息提取方法
CN114821263A (zh) 一种基于特征融合的弱纹理目标位姿估计方法
CN111127353A (zh) 一种基于块配准和匹配的高动态图像去鬼影方法
CN112001954A (zh) 一种基于极曲线约束的水下pca-sift图像匹配方法
CN117011380A (zh) 一种目标物体的6d位姿估计方法
CN113723432B (zh) 一种基于深度学习的智能识别、定位追踪的方法及***
CN114511894A (zh) 瞳孔中心坐标的获取***及获取方法
CN114972525B (zh) 一种面向机器人抓取及增强现实的空间目标姿态估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination