CN115601430A - 基于关键点映射的无纹理高反物***姿估计方法及*** - Google Patents

基于关键点映射的无纹理高反物***姿估计方法及*** Download PDF

Info

Publication number
CN115601430A
CN115601430A CN202211329589.0A CN202211329589A CN115601430A CN 115601430 A CN115601430 A CN 115601430A CN 202211329589 A CN202211329589 A CN 202211329589A CN 115601430 A CN115601430 A CN 115601430A
Authority
CN
China
Prior art keywords
image
target object
key point
rgb
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211329589.0A
Other languages
English (en)
Inventor
赵飞
张倚华
陈泽豫
梅雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202211329589.0A priority Critical patent/CN115601430A/zh
Publication of CN115601430A publication Critical patent/CN115601430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于关键点映射的无纹理高反物***姿估计方法及***,检测目标物体的类别属性及在图像中的2D包围框像素区域,从原始RGB图像中裁剪得到目标物体所属局部区域图像,对局部图像中物体边缘轮廓做亮化增强,获取边缘亮化增强后的目标物体局部区域图像,检测得到目标物体上预设的多个关键点在图像上的2D像素坐标,获取各预设关键点在物体建模坐标系下的3D空间坐标,构成多组2D‑3D坐标点对,基于PNP点对变换原理计算物***姿;通过基于边缘增强后的目标物体局部区域图像进行关键点检测来提高关键点检测准确度,解决直接基于RGB输入图像进行关键点检测而导致的最终位姿估计精度受到图像背景变换及边缘结构不清晰的影响,提高物***姿估计精度。

Description

基于关键点映射的无纹理高反物***姿估计方法及***
技术领域
本发明属于视觉感知技术领域,具体涉及一种基于关键点映射的无纹理高反物***姿估计方法及***。
背景技术
位姿估计旨在基于视觉图像信息,计算输出目标物体在相机坐标系中的位置及姿态等六自由度空间状态参数。该技术是以计算机视觉为基础的环境及对象感知领域中的重要技术组成,在机器人抓取,自动驾驶,增强现实等领域都有广泛的应用。
目前位姿估计方法多依赖于端到端深度学习模型,需要构建大型位姿数据集对模型进行训练,位姿估计效果受制于数据集的泛化性,且无法在复杂场景中实现快速应用,部署成本高。针对非端到端模型,现有方法主要以物体局部或全局结构为对象,采用深度学习或传统特征提取方式,对图像或点云数据进行特征迭代匹配来实现位姿估计,这类方法针对较大型物体时,往往出现计算量大,实时性差等问题,针对较小物体时,会因采样点云等数据量小而导致位姿估计结果较差,尤其针对表面无纹理且高反光物体,如机械加工零件时,其表面点云极易因光照而产生空洞,数据误差大,导致无法准确识别其位姿。
针对上述问题,以RGB图像为数据源,选择物体关键点作为特征对象,基于PNP点对运动原理来求解物***姿可以规避特征迭代匹配方式造成的实时性差,计算误差大的问题,实现更优的位姿估计结果。为此现有技术是将输入图像导入至特定物体检测模型,生成特定数量的关键点2D图像坐标数据;基于单目摄像头的虚拟相机坐标系,根据实际尺寸信息生成特定数量的3D坐标数据;基于PNP原理根据3D坐标数据、相机内参数据和2D图像坐标数据生成当前物***姿。或者首先回归得到工件关键点的像素坐标,然后根据相机内参矩阵,关键点2D像素坐标及在工件模型坐标系中的3D坐标计算得到工件位姿。上述现有方法的基本思想皆是通过检测得到物体图像2D关键点,然后基于2D-3D坐标对应关系求解出物***姿。
然而上述基于关键点的方法缺点在于,都是以包含目标物体的全局RGB图像为输入来检测关键点2D像素坐标的,如此,在以无纹理高反物体为对象的复杂多目标场景中,关键点检测依赖于对图像全局特征的分析,其结果会受到图像背景复杂度及光照强度的强烈影响,造成最终位姿估计结果不准。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于关键点映射的无纹理高反物***姿估计方法及***,用于解决基于RGB输入图像进行关键点检测导致的最终位姿估计精度受图像背景变换及边缘结构不清晰的技术问题。
本发明采用以下技术方案:
一种基于关键点映射的无纹理高反物***姿估计方法,包括以下步骤:
S1、将包含目标物体的RGB图像输入目标检测网络模型中,得到目标物体的类别属性及目标物体在RGB图像中的2D包围框像素区域;
S2、根据步骤S1得到的目标物体在RGB图像中的2D包围框像素区域,从原始RGB图像中裁剪得到目标物体所属局部区域图像,并对目标物体局部区域图像中各边缘轮廓进行亮化增强;
S3、将步骤S2亮化增强后目标物体局部区域图像输入关键点检测网络模型中,检测得到目标物体上预设的多个关键点在RGB图像上的2D像素坐标;
S4、获取各预设关键点在物体建模坐标系下的3D空间坐标,对应步骤S3得到的关键点在RGB图像上的2D像素坐标构成多组2D-3D坐标点对,依据多组2D-3D坐标点对关系及相机内参数矩阵,基于PNP算法计算得到物体模型坐标系相对于相机坐标系的旋转变换矩阵,完成目标物体在相机坐标下的位姿估计。
具体的,步骤S1具体为:
S101、采集包含目标物体的RGB图像,构建目标检测训练及测试数据集,并通过旋转,缩放,镜像转换操作对数据集进行扩充;
S102、以目标物体为对象,依据目标检测任务中类别及2D包围框结果数据格式,对步骤S101得到的训练及测试数据集进行标注;
S103、利用步骤S102标注的训练及测试数据集对预定义的目标检测网络模型进行数据训练及测试;
S104、获取相机实时输入的RGB图像,然后输入步骤S103训练好的目标检测网络模型,输出目标物体的类别属性及目标物体在RGB图像中的2D包围框像素区域。
进一步的,步骤S101中,目标物体RGB图像的分辨率为640×480,数据集中每类目标物体图像数不少于200,训练集与测试集按8:2划分,以图像中心为原点,基于固定角度间隔对图像进行旋转,基于固定比例大小对图像进行缩放,以及对图像进行镜像翻转,固定角度间隔为30度,固定比例大小为1.2。
具体的,步骤S2具体为:
S201、根据检测得到的目标物体2D包围框,从原始RGB图像中裁剪得到目标物体所属像素区域的局部区域图像;
S203、对步骤S201得到的局部区域图像做灰度化处理,从RGB三通道色彩空间转换到灰度单通道色彩空间;
S203、对步骤S203灰度化处理后的局部区域图像做双边滤波处理,保留图像边缘,消除图像中的不连续纹理细节;
S204、采用拉普拉斯核对步骤S203双边滤波后的灰度图像进行锐化处理,得到拉普拉斯图像,拉普拉斯图像的高亮部分表现为图像边缘;
S205、将步骤S204得到的拉普拉斯图像转换至RGB空间,并与原目标物体局部图像相加,实现对目标局部图像的亮化增强。
进一步的,步骤S203中,经双边滤波后输出的图像像素值g(x,y)为:
Figure BDA0003912823920000041
其中,S(i,j)为以(i,j)为中心的邻域像素范围,f(k,l)为邻域范围内输入的灰度图像像素值,ω(i,j,k,l)为由两高斯函数计算得到的权值。
具体的,步骤S3具体为:
S301、选择目标物体上数量大于4个,且处于不同空间平面的轮廓角点作为待检测关键点对象;
S302、采集基于边缘增强后的目标物体局部区域图像,将目标物体局部区域图像缩放至固定尺寸,构建关键点检测训练及测试数据集,通过旋转,缩放,镜像操作对关键点检测训练及测试数据集进行扩充;
S303、以步骤S301得到的待检测关键点对象为对象,依据关键点检测任务中2D关键点结果数据格式,对步骤S302扩充后的关键点检测训练及测试数据集进行标注;
S304、利用步骤S303标注的关键点检测训练及测试数据集对预定义的关键点检测网络模型进行数据训练及测试;
S305、将步骤S2实时输入的边缘增强后目标物体局部区域图像缩放至固定尺寸,输入步骤S304训练好的关键点检测网络模型,输出各预设关键点在图像中的2D像素坐标。
进一步的,步骤S304中,关键点检测网络模型为Hourglass网络模型。
具体的,步骤S4具体为:
S401、从物体模型坐标系中获取各个预设关键点对应的3D空间坐标;
S402、针对预测分数满足阈值要求的预设关键点,对应步骤S3预设关键点在图像上的2D像素坐标及步骤S401得到的预设关键点在物体模型坐标系下的3D空间坐标,构成多组2D-3D坐标点对;
S403、确定相机内参矩阵;
S404、基于PNP点对运动原理,输入步骤S402得到的多组2D-3D坐标点对和步骤S403得到的相机内参矩阵,计算得到物***姿。
进一步的,步骤S404中,模型坐标系相对于相机坐标系的旋转变换矩阵为:
Figure BDA0003912823920000051
其中,(x,y)为已知2D坐标,(X,Y,Z)为已知3D坐标,
Figure BDA0003912823920000052
为已知相机内参矩阵,
Figure BDA0003912823920000053
为目标物体在相机坐标系下的位姿矩阵。
第二方面,本发明实施例提供了一种基于关键点映射的无纹理高反物***姿估计***,包括:
图像采集模块,用于将包含目标物体的RGB图像输入目标检测网络模型中,得到目标物体的类别属性及目标物体在RGB图像中的2D包围框像素区域;
边缘增强模块,用于根据采集模块得到的目标物体在RGB图像中的2D包围框像素区域,从原始RGB图像中裁剪得到目标物体所属局部区域图像,并对目标物体局部区域图像中各边缘轮廓进行亮化增强;
关键点检测模块,用于将增强模块亮化增强后目标物体局部区域图像输入关键点检测网络模型中,检测得到目标物体上预设的多个关键点在RGB图像上的2D像素坐标;
位姿估计模块,用于获取各预设关键点在物体建模坐标系下的3D空间坐标,对应检测模块得到的关键点在RGB图像上的2D像素坐标构成多组2D-3D坐标点对,依据多组2D-3D坐标点对关系及相机内参数矩阵,基于PNP算法计算得到物体模型坐标系相对于相机坐标系的旋转变换矩阵,完成目标物体在相机坐标下的位姿估计。
与现有技术相比,本发明至少具有以下有益效果:
本发明基于关键点映射的无纹理高反物***姿估计方法,将包含目标物体的RGB图像输入到目标检测网络模型中,检测得到目标物体的类别属性及在图像中的2D包围框像素区域,使后续关键点检测模块能够基于目标物体的局部区域图像进行,以减小全局背景特征的影响;从原始RGB图像中裁剪得到目标物体所属局部区域图像,并输入到自定义图像增强模块中,完成对该图像中各边缘轮廓的亮化增强,通过增强图像中边缘轮廓特征以提高后续关键点检测的准确度;将边缘亮化增强后的目标物体局部区域图像输入关键点检测网络模型中,检测得到目标物体上预设的多个关键点在图像上的2D像素坐标,获得用于计算位姿的目标物体预设关键点图像2D坐标;获取各预设关键点在物体建模坐标系下的3D空间坐标,对应于其在图像上的2D像素坐标,构成多组2D-3D坐标点对。依据坐标点对关系及相机内参数矩阵,基于PNP算法原理,计算得到相机坐标系相对于物体建模坐标系的旋转变换矩阵,也即目标物体在相机坐标下的位姿,计算出物***姿,通过基于边缘增强后的目标物体局部区域图像进行关键点检测来提高关键点检测准确度,解决了直接基于RGB输入图像进行关键点检测而导致的最终位姿估计精度受到图像背景变换及边缘结构不清晰的影响,提高了物***姿估计精度。
进一步的,采集目标物体RGB图像,构建目标检测数据集,训练面向目标物体的目标检测模型,以使该网络能够输出仅包含目标物体的局部区域图像,增强目标物体局部特征表达。
进一步的,目标检测数据集,应当在不同环境背景,不同光照强度下进行图像采集,且数据集中每类目标物体图像数不少于200,具体以图像中心为原点,基于固定角度间隔对图像进行旋转,基于固定比例大小对图像进行缩放,以及对图像进行镜像翻转。
进一步的,基于目标检测得到的目标物体局部区域图像,先进行灰度化处理,实现图像色彩空间转换,然后进行双边滤波处理,在保留图像边缘的同时消除图像中的不连续纹理细节,接着进行拉普拉斯滤波处理,得到拉普拉斯边缘图像,最后将拉普拉斯图像与原图像相加,实现针对局部图像中物体边缘轮廓的亮化增强,突出无纹理高反物体边缘角点的结构特征,提高对基于边缘角点的物体关键点的检测精确度。
进一步的,双边滤波为一种非线性滤波,在滤波时,该滤波方法同时考虑空间临近信息与颜色相似信息,在滤除噪声、平滑图像的同时,又做到边缘保存。
进一步的,基于边缘增强后的目标物体局部区域图像构建关键点检测数据集,训练关键点检测网络模型,该模型在预测目标物体预设关键点时可以重点突出边缘特征,提高关键点检测准确性,通过关键点检测模型直接输出目标物体多个预设关键点位置,便于后续基于关键点位置的目标物***姿计算。
进一步的,Hourglass网络模型属于现有成熟技术,本领域技术人员需掌握该模型结构原理及编程复现方法,能够基于自定义关键点数据集完成对该网络模型的训练与测试开发。
进一步的,从模型坐标系中获取预先设定好的关键点的3D空间坐标,与先前预测得到的关键点在相机坐标系中成像平面上2D平面坐标相对应,构成多组2D-3D点对,依据PNP 2D-3D投影变换原理,计算得到目标物体自身模型坐标系相对于相机坐标系的旋转平移矩阵,即目标物体在相机坐标下的位姿状态,该方法利用数值计算得到物***姿,位姿精确度主要依赖于关键点的检测精度,避免了其它预测过程对位姿计算结果的影响,稳定性较高。
进一步的,基于OpenCV软件提供的接口函数直接实现,如此,最终可计算得到物体的位姿,目标物体最终的位姿估计结果,将位姿矩阵以3D包围框形式标注在图像上。
可以理解的是,上述第二方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
综上所述,本发明采用基于关键点映射的方法来估计无纹理高反物体在相机坐标系下的位姿,重点在于通过对目标物体局部区域图像做边缘亮化增强以突出无纹理高反物体的边缘结构特征,相比直接基于原始图像进行关键点检测,基于该局部增强后图像来检测,提高了边缘关键点的位置精确度,最后通过PNP投影变换原理,计算出目标物***姿,结果准确,稳定性高。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为基于关键点映射的无纹理高反物***姿估计方法示意图;
图2为自定义图像增强模块方法示意图;
图3为基于目标物体边缘增强图像的关键点示意图;
图4为位姿估计结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种基于关键点映射的无纹理高反物***姿估计方法,通过基于边缘增强后的目标物体局部区域图像进行关键点检测来提高关键点检测准确度,解决了直接基于RGB输入图像进行关键点检测而导致的最终位姿估计精度受到图像背景变换及边缘结构不清晰的影响,提高了物***姿估计精度。
请参阅图1,本发明一种基于关键点映射的无纹理高反物***姿估计方法,包括以下步骤:
S1、获取包含目标物体的RGB图像,将包含目标物体的RGB图像输入到目标检测网络模型中,检测得到目标物体的类别属性及在图像中的2D包围框像素区域;
其中,目标检测网络模型由自定义物体数据集训练而成。
S101、采集包含目标物体的RGB图像,构建目标检测训练及测试数据集,并通过旋转,缩放,镜像等转换操作对数据集进行扩充;
目标物体RGB图像,具体由选用的RGB相机实时获得,本实施例中选用IntelRealSense D435相机,输出图像分辨率为640×480。
目标检测数据集,应当在不同环境背景,不同光照强度下进行图像采集,且数据集中每类目标物体图像数不少于200,训练集与测试集按照8:2数量比例划分。
数据扩充,具体以图像中心为原点,基于固定角度间隔对图像进行旋转,基于固定比例大小对图像进行缩放,以及对图像进行镜像翻转,本实施例中固定角度间隔设为30度,固定比例大小设为1.2。
S102、以目标物体为对象,依据目标检测任务中类别及2D包围框结果数据格式,对训练及测试数据集进行标注;
目标检测结果数据格式为类别及2D矩形包围框,包括一个反映类别的字符参数及四个反映2D矩形框位置大小的数值参数。
本实施例中,按照上述数据格式,基于LabelImage开源软件完成对数据集的标注。
S103、对预定义的目标检测网络模型进行数据训练及测试;
目标检测网络模型,具体为经过自定义物体数据集训练而成的Faster RCNN网络模型,这是一种两阶段的目标检测模型,输入一张RGB图像,网络自动将其缩放至固定大小尺寸,经过计算,输出目标物体的类别属性及包围物体像素区域的2D矩形框。
Faster RCNN网络模型采用VGG16卷积神经网络作为主干网络提取图像特征,后通过RPN卷积网络获取到图像中可能存在的目标物体2D包围框区域,然后通过全连接网络实现对每个预选2D包围框区域特征的分类与回归,得到预测分数最大的2D包围框区域。
需要说明,Faster RCNN网络模型乃是现有成熟技术,本领域技术人员需掌握其结构原理及编程复现方法,能够基于自定义数据集完成对该网络模型的训练与测试开发。
S104、获取相机实时输入的RGB图像,经训练好的目标检测网络模型,输出目标物体类别及2D包围框结果。
S2、根据步骤S1得到的目标物体在图像中的2D包围框像素区域,从原始RGB图像中裁剪得到目标物体所属局部区域图像,并将该局部区域图像输入到自定义图像增强模块中,完成对图像中各边缘轮廓的亮化增强;
请参阅图2,具体步骤如下:
S201、根据检测得到的目标物体2D包围框,从原始RGB图像中裁剪得到目标物体所属像素区域的局部区域图像;
局部区域图像,具体尺寸大小由检测得到的目标物体2D矩形框确定,即长度等于矩形框长,宽度等于矩形框宽。
S203、对目标物体局部区域图像做灰度化处理,使其从RGB三通道色彩空间转换到灰度单通道色彩空间;
灰度化处理,具体计算公式为:
f(x,y)=r·R(x,y)+g·G(x,y)+b·B(x,y)
其中,r,g,b分别为灰度化系数,一般取r=0.3,g=0.59,b=0.11。R(x,y),G(x,y),B(x,y)分别为输入的目标物体局部区域图像在RGB三个通道上的像素值,f(x,y)为经灰度化后输出的图像像素值。
S203、对灰度化后的局部区域图像做双边滤波处理,在保留图像边缘的同时消除图像中所存在的不连续纹理细节;
双边滤波,具体为一种非线性滤波,在滤波时,该滤波方法同时考虑空间临近信息与颜色相似信息,在滤除噪声、平滑图像的同时,又做到边缘保存。其计算公式为
Figure BDA0003912823920000121
其中,g(x,y)为经双边滤波后输出的图像像素值,S(i,j)为以(i,j)为中心的邻域像素范围,本实施例中该邻域值设为10,f(k,l)代表邻域范围内输入的灰度图像像素值,ω(i,j,k,l)代表由两高斯函数计算得到的权值,其公式为:
ω(i,j,k,l)=ωs·ωr
Figure BDA0003912823920000122
Figure BDA0003912823920000123
其中,σs与σr为固定参数值,一般设置为邻域大小的一半,即为5。
S204、采用拉普拉斯核对双边滤波后的灰度图像进行锐化处理,得到拉普拉斯图像,其高亮部分表现为图像边缘;
拉普拉斯核,具体为一种基于拉普拉斯微分算子的图像卷积核,拉普拉斯算子是一种基于欧几里得空间的二阶微分算子,代表二维空间域中两个维度方向上的二阶导数。其计算公式为:
Figure BDA0003912823920000124
Figure BDA0003912823920000125
Figure BDA0003912823920000126
Figure BDA0003912823920000127
其中,h(x,y)为经拉普拉斯锐化后输出的图像像素值,g(x,y)为输入的双边滤波图像像素值。
S205、将拉普拉斯图像转换至RGB空间,并与原目标物体局部图像相加,突出边缘部分,起到对目标局部图像的边缘增强效果。
拉普拉斯图像转换至RGB空间,具体为将图像扩充为RGB三通道,各自通道像素值皆相同,都等于灰度像素值。
拉普拉斯RGB图像与原目标物体局部图像相加,具体为将对应通道像素值按参数比例相加,计算公式为:
q(x,y)=α·f(x,y)+β·h(x,y)
其中,q(x,y)为经边缘增强后输出的图像单通道像素值,f(x,y)为原输入图像单通道像素值,h(x,y)为输入的拉普拉斯图像单通道像素值,α与β为比例参数,一般定义α+β=1,本实施例中α设为0.7,β设为0.3。
需要说明的是,步骤S202到步骤S205所涉及公式计算,在实施时可以基于OpenCV软件提供的接口函数直接实现。
S3、获取步骤S2边缘轮廓亮化增强后的目标物体局部区域图像,将其输入到关键点检测网络模型中,检测得到目标物体上预设的多个关键点在图像上的2D像素坐标;
其中,关键点检测网络模型由自定义物体关键点对象数据集训练而成。
S301、选择目标物体上多个轮廓角点为欲检测关键点对象,关键点数量应大于4,相互间特征差异尽可能大,且处于不同空间平面上;
轮廓角点,具体为由目标物体边缘轮廓线相交形成,且可以反映目标物体结构特征的空间点,如图3所示,本实施例中选择对称的8个轮廓角点作为欲检测关键点。
S302、采集基于边缘增强后的目标物体局部区域图像,将其缩放至固定尺寸,构建关键点检测训练及测试数据集,并通过旋转,缩放,镜像等转换操作对数据集进行扩充;
固定尺寸,本实施例中设为640×480。
关键点数据集构建及扩充操作,具体与步骤S101中目标检测数据集相关操作一致,在此不多做赘述。
S303、以目标物体预设计的多个关键点为对象,依据关键点检测任务中2D关键点结果数据格式,对训练及测试数据集进行标注;
2D关键点结果数据格式,具体为目标物体上多个关键点的2D像素坐标,包括2N个数值参数,N为实施时根据目标物体选择的关键点数量,在本实施例中,N为8,基于LabelMark开源软件完成对数据集的标注。
S304、对预定义的关键点检测网络模型进行数据训练及测试;
关键点检测网络模型,具体为经过自定义关键点数据集训练而成的Hourglass网络模型,该模型由一个个如图漏斗般的网络模块前后拼接在一起,被形象地称为堆叠漏斗神经网络模型。输入一张RGB图像,输出缩小到固定尺寸上的特征节点热图,其代表预测关键点的位置概率,根据位置概率的排序计算,便可得到各个关键点在图像中的2D像素坐标。
Hourglass网络模型采用残差网络构建漏斗网络模块,通过将特征从高分辨率转换到低分辨率,再从低分辨率经卷积转换到高分辨率,以此来结合多尺度特征信息和图像空间信息,实现对图像中关键点位置分布规律的深入学习,最终生成关键点检测热图。
需要说明,Hourglass网络模型属于现有成熟技术,本领域技术人员需掌握该模型结构原理及编程复现方法,能够基于自定义关键点数据集完成对该网络模型的训练与测试开发。
S305、获取经步骤S200实时输入的边缘增强后目标物体局部区域图像,将其缩放至固定尺寸,经训练好的关键点检测网络模型,输出各预设关键点在图像中的2D像素坐标。
边缘增强后目标物体局部区域图像,具体实施时,因为图像中物体所处位姿不同,导致其尺寸大小不一致,在输入到关键点检测网络模型中时,需要缩放至固定尺寸大小,本实施例中,该固定尺寸设置为640×480。
S4、获取各预设关键点在物体建模坐标系下的3D空间坐标,对应于其在图像上的2D像素坐标,构成多组2D-3D坐标点对,依据坐标点对关系及相机内参数矩阵,基于PNP算法原理,计算得到物体模型坐标系相对于相机坐标系的旋转变换矩阵,也即目标物体在相机坐标下的位姿。
S401、在物体模型坐标系中,基于已知的物体CAD模型,获取各个预设关键点对应的3D空间坐标;
模型坐标系,具体为针对目标物体进行CAD建模时的软件坐标系。
S402、针对预测分数满足阈值要求的预设关键点,对应其在图像上的2D像素坐标及在模型坐标系下的3D空间坐标,构成多组2D-3D坐标点对;
预测阈值,具体根据实施时场景要求设置,本实施例中设为0.7。
S403、根据选用相机硬件参数,获得已知的相机内参矩阵;
相机内参矩阵,具体由相机硬件参数确定,对于一般的RGB相机,会由相机制造厂商提供,属于已知量;未知时,可根据现有成熟的相机标定方法计算出相机内参矩阵,本实施例中,选用的是Intel RealSense D435相机,可通过其提供的函数接口直接得到相机内参矩阵。
S404、基于PNP点对运动原理,输入多组2D-3D坐标点对及相机内参矩阵,计算得到物***姿。
PNP点对运动原理,具体为已知空间N个点在模型坐标下的3D坐标,及在相机坐标系下投影到相机成像平面上的2D坐标,利用点对坐标关系,计算模型坐标系相对于相机坐标系的旋转变换矩阵。计算公式为:
Figure BDA0003912823920000151
其中,(x,y)为已知2D坐标,(X,Y,Z)为已知3D坐标,
Figure BDA0003912823920000152
为已知相机内参矩阵,
Figure BDA0003912823920000153
为计算输出的旋转变换矩阵,也即目标物体在相机坐标系下的位姿矩阵。
一组2D到3D关键点坐标对可构成一个方程,在本实施例中,步骤S301中检测关键点数量为8且不共面,即该输出矩阵可解。
需要说明,上述步骤S404所涉及公式计算,在实施时可以基于OpenCV软件提供的接口函数直接实现,如此,最终可计算得到物体的位姿,如图4所示,为本实施例中,目标物体最终的位姿估计结果,将位姿矩阵以3D包围框形式标注在图像上。
本发明再一个实施例中,提供一种基于关键点映射的无纹理高反物***姿估计***,该***能够用于实现上述基于关键点映射的无纹理高反物***姿估计方法,具体的,该基于关键点映射的无纹理高反物***姿估计***包括图像采集模块、边缘增强模块、关键点检测模块以及位姿估计模块。
其中,图像采集模块,用于将包含目标物体的RGB图像输入目标检测网络模型中,得到目标物体的类别属性及目标物体在RGB图像中的2D包围框像素区域;
边缘增强模块,用于根据采集模块得到的目标物体在RGB图像中的2D包围框像素区域,从原始RGB图像中裁剪得到目标物体所属局部区域图像,并对目标物体局部区域图像中各边缘轮廓进行亮化增强;
关键点检测模块,用于将增强模块亮化增强后目标物体局部区域图像输入关键点检测网络模型中,检测得到目标物体上预设的多个关键点在RGB图像上的2D像素坐标;
位姿估计模块,用于获取各预设关键点在物体建模坐标系下的3D空间坐标,对应检测模块得到的关键点在RGB图像上的2D像素坐标构成多组2D-3D坐标点对,依据多组2D-3D坐标点对关系及相机内参数矩阵,基于PNP算法计算得到物体模型坐标系相对于相机坐标系的旋转变换矩阵,完成目标物体在相机坐标下的位姿估计。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明在一个实施例中,对本发明所提出的无纹理高反物***姿估计方法进行了实验,选择了类似于图3中物体的多个无纹理高反物体为目标对象,基于上述目标对象构建的自定义位姿测试数据集,以ADD和ADD-S两项位姿精确度指标为评价标准,对本发明提出方法进行了实验,如下表所示:
Figure BDA0003912823920000171
分别对目标物体在其局部图像做了边缘增强后进行关键点检测映射和直接基于原始图像进行关键点检测映射这两种过程状态进行了实验,可以看出,对于本发明提出的位姿估计方法,即对目标物体局部区域图像进行边缘亮化增强,而后进行关键点检测和PNP位姿计算,其整***姿估计准确率较高,有明显的结果优势,说明本发明方法的有效性,验证了原理方案的可行性,具备实际应用价值。
综上所述,本发明一种基于关键点映射的无纹理高反物***姿估计方法及***,通过对目标物体局部区域图像进行边缘亮化增强以突出边缘角点的结构特征,提高预设关键点的检测精确度,结合PNP点对投影变换原理,通过关键点坐标映射计算得到目标物***姿,该方法相对于直接基于原始图像进行关键点检测映射和基于网络进行位姿预测,其计算结果准确度高,可行性强,有较高的应用价值。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.基于关键点映射的无纹理高反物***姿估计方法,其特征在于,包括以下步骤:
S1、将包含目标物体的RGB图像输入目标检测网络模型中,得到目标物体的类别属性及目标物体在RGB图像中的2D包围框像素区域;
S2、根据步骤S1得到的目标物体在RGB图像中的2D包围框像素区域,从原始RGB图像中裁剪得到目标物体所属局部区域图像,并对目标物体局部区域图像中各边缘轮廓进行亮化增强;
S3、将步骤S2亮化增强后目标物体局部区域图像输入关键点检测网络模型中,检测得到目标物体上预设的多个关键点在RGB图像上的2D像素坐标;
S4、获取各预设关键点在物体建模坐标系下的3D空间坐标,对应步骤S3得到的关键点在RGB图像上的2D像素坐标构成多组2D-3D坐标点对,依据多组2D-3D坐标点对关系及相机内参数矩阵,基于PNP算法计算得到物体模型坐标系相对于相机坐标系的旋转变换矩阵,完成目标物体在相机坐标下的位姿估计。
2.根据权利要求1所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S1具体为:
S101、采集包含目标物体的RGB图像,构建目标检测训练及测试数据集,并通过旋转,缩放,镜像转换操作对数据集进行扩充;
S102、以目标物体为对象,依据目标检测任务中类别及2D包围框结果数据格式,对步骤S101得到的训练及测试数据集进行标注;
S103、利用步骤S102标注的训练及测试数据集对预定义的目标检测网络模型进行数据训练及测试;
S104、获取相机实时输入的RGB图像,然后输入步骤S103训练好的目标检测网络模型,输出目标物体的类别属性及目标物体在RGB图像中的2D包围框像素区域。
3.根据权利要求3所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S101中,目标物体RGB图像的分辨率为640×480,数据集中每类目标物体图像数不少于200,训练集与测试集按8:2划分,以图像中心为原点,基于固定角度间隔对图像进行旋转,基于固定比例大小对图像进行缩放,以及对图像进行镜像翻转,固定角度间隔为30度,固定比例大小为1.2。
4.根据权利要求1所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S2具体为:
S201、根据检测得到的目标物体2D包围框,从原始RGB图像中裁剪得到目标物体所属像素区域的局部区域图像;
S203、对步骤S201得到的局部区域图像做灰度化处理,从RGB三通道色彩空间转换到灰度单通道色彩空间;
S203、对步骤S203灰度化处理后的局部区域图像做双边滤波处理,保留图像边缘,消除图像中的不连续纹理细节;
S204、采用拉普拉斯核对步骤S203双边滤波后的灰度图像进行锐化处理,得到拉普拉斯图像,拉普拉斯图像的高亮部分表现为图像边缘;
S205、将步骤S204得到的拉普拉斯图像转换至RGB空间,并与原目标物体局部图像相加,实现对目标局部图像的亮化增强。
5.根据权利要求4所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S203中,经双边滤波后输出的图像像素值g(x,y)为:
Figure FDA0003912823910000021
其中,S(i,j)为以(i,j)为中心的邻域像素范围,f(k,l)为邻域范围内输入的灰度图像像素值,ω(i,j,k,l)为由两高斯函数计算得到的权值。
6.根据权利要求1所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S3具体为:
S301、选择目标物体上数量大于4个,且处于不同空间平面的轮廓角点作为待检测关键点对象;
S302、采集基于边缘增强后的目标物体局部区域图像,将目标物体局部区域图像缩放至固定尺寸,构建关键点检测训练及测试数据集,通过旋转,缩放,镜像操作对关键点检测训练及测试数据集进行扩充;
S303、以步骤S301得到的待检测关键点对象为对象,依据关键点检测任务中2D关键点结果数据格式,对步骤S302扩充后的关键点检测训练及测试数据集进行标注;
S304、利用步骤S303标注的关键点检测训练及测试数据集对预定义的关键点检测网络模型进行数据训练及测试;
S305、将步骤S2实时输入的边缘增强后目标物体局部区域图像缩放至固定尺寸,输入步骤S304训练好的关键点检测网络模型,输出各预设关键点在图像中的2D像素坐标。
7.根据权利要求6所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S304中,关键点检测网络模型为Hourglass网络模型。
8.根据权利要求1所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S4具体为:
S401、从物体模型坐标系中获取各个预设关键点对应的3D空间坐标;
S402、针对预测分数满足阈值要求的预设关键点,对应步骤S3预设关键点在图像上的2D像素坐标及步骤S401得到的预设关键点在物体模型坐标系下的3D空间坐标,构成多组2D-3D坐标点对;
S403、确定相机内参矩阵;
S404、基于PNP点对运动原理,输入步骤S402得到的多组2D-3D坐标点对和步骤S403得到的相机内参矩阵,计算得到物***姿。
9.根据权利要求8所述的基于关键点映射的无纹理高反物***姿估计方法,其特征在于,步骤S404中,模型坐标系相对于相机坐标系的旋转变换矩阵为:
Figure FDA0003912823910000041
其中,(x,y)为已知2D坐标,(X,Y,Z)为已知3D坐标,
Figure FDA0003912823910000042
为已知相机内参矩阵,
Figure FDA0003912823910000043
为目标物体在相机坐标系下的位姿矩阵。
10.一种基于关键点映射的无纹理高反物***姿估计***,其特征在于,包括:
图像采集模块,用于将包含目标物体的RGB图像输入目标检测网络模型中,得到目标物体的类别属性及目标物体在RGB图像中的2D包围框像素区域;
边缘增强模块,用于根据采集模块得到的目标物体在RGB图像中的2D包围框像素区域,从原始RGB图像中裁剪得到目标物体所属局部区域图像,并对目标物体局部区域图像中各边缘轮廓进行亮化增强;
关键点检测模块,用于将增强模块亮化增强后目标物体局部区域图像输入关键点检测网络模型中,检测得到目标物体上预设的多个关键点在RGB图像上的2D像素坐标;
位姿估计模块,用于获取各预设关键点在物体建模坐标系下的3D空间坐标,对应检测模块得到的关键点在RGB图像上的2D像素坐标构成多组2D-3D坐标点对,依据多组2D-3D坐标点对关系及相机内参数矩阵,基于PNP算法计算得到物体模型坐标系相对于相机坐标系的旋转变换矩阵,完成目标物体在相机坐标下的位姿估计。
CN202211329589.0A 2022-10-27 2022-10-27 基于关键点映射的无纹理高反物***姿估计方法及*** Pending CN115601430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211329589.0A CN115601430A (zh) 2022-10-27 2022-10-27 基于关键点映射的无纹理高反物***姿估计方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211329589.0A CN115601430A (zh) 2022-10-27 2022-10-27 基于关键点映射的无纹理高反物***姿估计方法及***

Publications (1)

Publication Number Publication Date
CN115601430A true CN115601430A (zh) 2023-01-13

Family

ID=84851332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211329589.0A Pending CN115601430A (zh) 2022-10-27 2022-10-27 基于关键点映射的无纹理高反物***姿估计方法及***

Country Status (1)

Country Link
CN (1) CN115601430A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975441A (zh) * 2023-12-27 2024-05-03 北京中科原动力科技有限公司 一种串番茄采摘点检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975441A (zh) * 2023-12-27 2024-05-03 北京中科原动力科技有限公司 一种串番茄采摘点检测方法及装置

Similar Documents

Publication Publication Date Title
CN109544677B (zh) 基于深度图像关键帧的室内场景主结构重建方法及***
JP4785880B2 (ja) 三次元オブジェクト認識のためのシステムおよび方法
Salvi et al. A review of recent range image registration methods with accuracy evaluation
JP5430456B2 (ja) 幾何特徴抽出装置、幾何特徴抽出方法、及びプログラム、三次元計測装置、物体認識装置
CN109859305B (zh) 基于多角度二维人脸的三维人脸建模、识别方法及装置
JP2011129082A (ja) 3次元物体認識装置及び3次元物体認識方法
Holzmann et al. Semantically aware urban 3d reconstruction with plane-based regularization
CN112465849B (zh) 一种无人机激光点云与序列影像的配准方法
CN112651944A (zh) 基于cad模型的3c部件高精度六维位姿估计方法及***
CN114022542A (zh) 一种基于三维重建的3d数据库制作方法
JP2018055199A (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
CN116778288A (zh) 一种多模态融合目标检测***及方法
Cui et al. Dense depth-map estimation based on fusion of event camera and sparse LiDAR
Pacheco et al. Reconstruction of high resolution 3D objects from incomplete images and 3D information
Chen et al. Extrinsic calibration of a laser range finder and a camera based on the automatic detection of line feature
CN115457195A (zh) 一种配网工程图纸二三维转换方法、***、设备及介质
CN115601430A (zh) 基于关键点映射的无纹理高反物***姿估计方法及***
Hu et al. R-CNN based 3D object detection for autonomous driving
Cui et al. ACLC: Automatic Calibration for non-repetitive scanning LiDAR-Camera system based on point cloud noise optimization
CN116310753A (zh) 一种室外场景点云数据的矢量化骨架提取方法及***
Sa et al. Depth grid-based local description for 3D point clouds
Kurka et al. Automatic estimation of camera parameters from a solid calibration box
Zhu et al. Accurate disparity estimation in light field using ground control points
Kang et al. 3D urban reconstruction from wide area aerial surveillance video
Zhou et al. A novel method for reconstructing general 3D curves from stereo images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination