CN113393522B - 一种基于单目rgb相机回归深度信息的6d位姿估计方法 - Google Patents
一种基于单目rgb相机回归深度信息的6d位姿估计方法 Download PDFInfo
- Publication number
- CN113393522B CN113393522B CN202110583238.1A CN202110583238A CN113393522B CN 113393522 B CN113393522 B CN 113393522B CN 202110583238 A CN202110583238 A CN 202110583238A CN 113393522 B CN113393522 B CN 113393522B
- Authority
- CN
- China
- Prior art keywords
- pixel
- pose
- depth
- network
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于单目RGB相机回归深度信息的6D位姿估计方法,包括以下步骤:将单目RGB相机采集的RGB图像输入深度估计网络,该网络使用U‑Net的编码器‑解码器结构回归RGB图像的深度值;将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云深度信息;将RGB图像输入PSPNet网络,回归输入图像的颜色信息;将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿,从而预测对象整体的6D位姿。本发明基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高。
Description
技术领域
本发明涉及机器人环境感知技术领域,尤其是涉及一种基于单目RGB相机回归深度信息的6D位姿估计方法。
背景技术
机器人环境感知技术以其高度柔性化的特点已渗透到各大领域,如工业生产自动化、自动驾驶等。6D位姿估计的目的是得到相机坐标系与目标对象坐标系间的平移与旋转变换关系,共包含旋转角与位置在内的6个位姿量,在智能物流、工业机器人以及虚拟现实等应用领域中起到至关重要的作用。
近年来,随着深度学习技术的发展,基于学习的6D位姿估计相比传统的机理建模算法,在位姿估计稳定性与精度上有了较大的提高,能够适应较为复杂的工业环境,可以弥补传统的算法在背景杂乱以及存在遮挡时无法有效工作的缺陷。基于深度学习的6D位姿估计方法通过学习寻找6D位姿与图像特征二者之间存在的联系,之后使用学习得到的模型,用回归的方法对对象的6D位姿实现精确估计。
根据输入数据的不同,当前基于深度学习的6D位姿估计方法主要可以分为基于RGB数据与RGB-D数据两种,基于RGB数据的方法主要有PointFusion、PoseCNN、Pix2Pose以及PVNet等,基于RGB-D数据的方法主要有SSD-6D、DenseFusion、PVN3D以及FFB6D等。
RGB-D相机虽然可以弥补RGB相机无法精准测距的固有缺陷,但在实际工业应用场景下同样存在很多挑战。首先,RGB-D相机的功耗较大,基于RGB相机的6D位姿估计方法对于移动和可穿戴式设备更具吸引力。其次,RGB-D相机在帧率、视场、分辨率和深度范围方面都有限制,很难探测到小的、薄的、透明的或快速移动的物体。再者,一些可以获得高精度点云的RGB-D相机成本仍是普通RGB-D相机或传统高分辨率工业传感器的10倍以上,价格较为昂贵。
综上所述,因RGB相机存在无法精准测距的固有缺陷、RGB-D相机在实际工业应用场景下同样存在很多挑战。
发明内容
针对RGB相机存在无法精准测距的固有缺陷以及RGB-D相机在实际工业应用场景下存在的挑战,本发明提出了一种基于单目RGB相机回归深度信息的6D位姿估计方法,在仅使用RGB数据作为输入的基础上实现目标对象稳定、准确、快速的6D位姿估计。
为实现上述目的,本发明采用以下技术方案:
一种基于单目RGB相机回归深度信息的6D位姿估计方法,包括以下步骤:
步骤S1:将单目RGB相机采集的RGB图像输入深度估计网络中,深度估计网络使用基于U-Net的编码器-解码器结构,回归得到RGB图像的深度值;
步骤S2:将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云数据的深度信息;
步骤S3:将RGB图像输入PSPNet网络,提取其颜色特征,回归输入RGB图像的颜色信息;
步骤S4:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿;
步骤S5:将逐像素点的估计位姿输入多层感知机,再对置信度进行平均最大池化,回归目标对象整体的6D位姿。
作为本发明的一种优选改进,步骤S1具体包括如下步骤:
步骤S101:使用单目RGB相机获取场景的RGB图像,再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器;
步骤S102:通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器;
步骤S103:根据单目RGB相机前后两帧图像之间的特征关系进行匹配,得到单目RGB相机运动前后的相对变换矩阵,从而估计单目RGB相机的位姿,使用单目RGB相机的位姿来帮助约束深度估计网络;
步骤S104:过滤掉前后两帧中外观未改变的像素点;
步骤S105:使用双线性采样对源图像进行采样,之后利用像素空间中的L1距离与SSIM实现光度重构误差函数,公式表示为:
式中Pa为源视图,Pb为目标图像,SSIM(Pa,Pb)为Pa与Pb的结构相似性,||Pa-Pb||1为Pa与Pb在像素空间中的L1距离,α为权重系数,re(Pa,Pb)为Pa与Pb的光度重构误差函数;
步骤S106:将每个像素仅与其可见的视图相匹配,逐像素计算光度重投影,公式表示为:
Pt′→t=Pt′<proj(Dt,Tt′→t,R)>
式中Pt′→t为源视图Pt′到目标图像Pt的光度重投影,R为预计算的内参,Tt′→t为每个源视图Pt′相对于目标图像Pt的位姿,Dt为预测的密集深度图,proj()为投影深度Dt的2D坐标,<>是采样运算符;
步骤S107:最小化计算逐像素光度重投影损失Lr,公式表示为:
式中Lr是逐像素光度重投影损失,Pt′为源视图,Pt为目标图像,Pt′→t为源视图Pt′到目标图像Pt的光度重投影,re()是光度重构误差函数;
步骤S108:对步骤S107中的Lr应用逐像素二进制掩码ω,有选择地对像素进行加权,公式表示为:
式中,ω∈{0,1},即仅当源视图Pt′到目标图像Pt的光度重投影误差小于原始图像重投影误差时,ω=1;
步骤S109:计算逐像素边缘感知平滑度损失,公式表示为:
步骤S110:先将较低分辨率的深度RGB图像向上采样到输入图像分辨率,然后在此较高输入分辨率下重新投影、重采样并计算误差re,最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合;
步骤S111:将逐像素平滑度与光度重建损失合并为总损失,并对每个像素、尺度和批次进行平均,公式表示为:
Lall=ωLr+ξLs
式中ω为光度重投影损失系数,ξ为平滑度损失系数,Lall为深度估计的总损失;
步骤S112:通过训练学习,不断降低深度估计总损失的值,最终选择总损失最小的深度估计输出图作为对象的深度估计图。
作为本发明的一种优选改进,步骤S3具体包括如下步骤:
将RGB图像输入PSPNet网络,进行场景解析,该PSPNet网络分四级并逐级对输入信息进行处理,提取其颜色特征,通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。
作为本发明的一种优选改进,步骤S4具体包括如下步骤:
步骤S401:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素的密集融合特征;
式中为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,则(Rxj+t)为第j个点的真实位姿;R′i表示世界坐标系到相机坐标系转换的估计旋转矩阵,t′i表示世界坐标系到相机坐标系转换的估计平移矩阵,则(R′ixj+t′i)为其第j个点中的预测位姿;
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(R′ixk+t′i)为从第k个点中预测的预测位姿;
作为本发明的一种优选改进,步骤S5具体包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的多层感知机,回归输出对象整体的估计6D位姿与所估计6D位姿的置信度分数;
步骤S502:将对象的置信度分数与位姿估计损失函数组合,构成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
步骤S503:通过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
本发明的有益效果如下:有效的回归了单目RGB相机图像的深度信息,并利用回归的深度信息结合颜色信息对室内场景下的物体进行了有效的6D位姿估计,在基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明一种基于单目RGB相机回归深度信息的6D位姿估计方法的***框架图;
图2为本发明使用的PointNet网络结构图,可分为点云分类网络与点云分割网络;
图3为本发明在室内场景下进行6D位姿估计的第一应用实例;
图4为本发明在室内场景下进行6D位姿估计的第二应用实例。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1所示,本申请使用深度学习的方法,融合了基于RGB数据的深度估计与基于RGB-D数据的6D位姿估计,提出了一种基于单目RGB相机回归深度信息的6D位姿估计方法,包括以下步骤:
步骤S1:将单目RGB相机采集的图像输入深度估计网络中,深度估计网络使用基于U-Net的编码器-解码器结构,回归得到RGB图像的深度值;具体包括如下步骤:
步骤S101:首先,使用单目RGB相机获取场景的RGB图像,再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器。
步骤S102:通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器。
步骤S103:根据相机前后两帧图像之间的特征关系进行匹配,得到相机运动前后的相对变换矩阵,从而估计相机的位姿,使用相机的位姿来帮助约束深度估计网络。
步骤S104:过滤掉前后两帧中外观未改变的像素点,即使用算法自动掩膜静态像素点(相机未运动或相机与物体以相同速度运动)。
步骤S105:使用双线性采样对源图像进行采样,之后利用像素空间中的L1距离与SSIM实现光度重构误差函数,公式表示为:
式中Pa为源视图,Pb为目标图像,SSIM(Pa,Pb)为Pa与Pb的结构相似性,||Pa-Pb||1为Pa与Pb在像素空间中的L1距离,α为权重系数,re(Pa,Pb)为Pa与Pb的光度重构误差函数;
步骤S106:将每个像素仅与其可见的视图相匹配,逐像素计算光度重投影,公式表示为:
Pt′→t=Pt′<proj(Dt,Tt′→t,R)>
式中Pt′→t为源视图Pt′到目标图像Pt的光度重投影,R为预计算的内参(假设所有视图的内参相同),Tt′→t为每个源视图Pt′相对于目标图像Pt的位姿,Dt为预测的密集深度图,proj()为投影深度Dt的2D坐标,<>是采样运算符;
步骤S107:最小化计算逐像素光度重投影损失Lr,公式表示为:
式中Lr是逐像素光度重投影损失,Pt′为源视图,Pt为目标图像,Pt′→t为源视图Pt′到目标图像Pt的光度重投影,re()是光度重构误差函数;
步骤S108:对步骤S107中的Lr应用逐像素二进制掩码ω,有选择地对像素进行加权,公式表示为:
式中,ω∈{0,1},即仅当源视图Pt′到目标图像Pt的光度重投影误差小于原始图像重投影误差时,ω=1;
步骤S109:计算逐像素边缘感知平滑度损失,公式表示为:
步骤S110:由于双线性采样器的梯度局部性,为了避免训练目标陷入局部极小,采用多尺度深度预测和图像重建。首先将较低分辨率的深度图向上采样到输入图像分辨率,然后在此较高输入分辨率下重新投影、重采样并计算误差re。最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合;
步骤S111:将逐像素平滑度与光度重建损失合并为总损失,并对每个像素、尺度和批次进行平均,公式表示为:
Lall=ωLr+ξLs
式中ω为光度重投影损失系数,ξ为平滑度损失系数,Lall为深度估计的总损失;
步骤S112:通过训练学习,不断降低深度估计总损失的值,最终选择总损失最小的深度估计输出图作为对象的深度估计图。
步骤S2:将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云数据的深度信息;
步骤S3:将RGB图像输入PSPNet网络,提取其颜色特征,回归输入RGB图像的颜色信息;具体包括如下步骤:
首先,将RGB图像输入PSPNet网络,进行场景解析,该PSPNet网络分四级(1×1、2×2、3×3及6×6)并逐级对输入信息进行处理,提取其颜色特征,其次,通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。
步骤S4:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿;具体包括如下步骤:
步骤S401:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素的密集融合特征;
式中为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,则(Rxj+t)为第j个点的真实位姿;R′i表示世界坐标系到相机坐标系转换的估计旋转矩阵,t′i表示世界坐标系到相机坐标系转换的估计平移矩阵,则(R′ixj+t′i)为其第j个点中的预测位姿;
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(R′ixk+t′i)为从第k个点中预测的预测位姿;
步骤S5:将逐像素点的估计位姿输入最终的多层感知机,再对置信度进行平均最大池化,回归目标对象整体的6D位姿。具体包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的多层感知机,回归输出对象整体的估计6D位姿与所估计6D位姿的置信度分数;
步骤S502:将对象的置信度分数与位姿估计损失函数组合,构成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
步骤S503:通过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
名词解释:
深度估计网络:本申请的深度估计网络使用经典的U-Net编码器-解码器模型结构(U-Net是使用多尺度特征进行语义分割任务的算法),编码器是经过预训练的ResNet18模型,用于特征提取,深度解码器通过4次上采样及与对应的编码层进行特征拼接,将输出转换为深度值,从而实现对图像深度的估计,具体原理解释见步骤S101-S112。
PointNet网络:目前效果较好且使用最广泛的一种点云分割网络,网络结构见图2。
PSPNet网络:PSPNet网络是目前应用较为广泛的语义分割方法,该方法的核心思想是在语义分割算法中引入更多的上下文信息,通过在FCN算法的基础上引入全局均值池化操作与特征融合来实现。
DenseFusion网络框架:本专利使用的DenseFusion网络框架改变了传统的RGB-D特征的融合方式,其使用了一个异构网络去分别处理RGB数据和点云数据,然后将RGB数据的颜色特征和点云的特征以逐像素密集融合的方式进行了融合,在保留这两种数据自身结构的基础上有效的进行了特征融合。
本发明的有益效果如下:有效的回归了单目RGB相机图像的深度信息,并利用回归的深度信息结合颜色信息对室内场景下的物体进行了有效的6D位姿估计,在基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高,具体可参阅附图3和4所示。
尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。
Claims (4)
1.一种基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,包括以下步骤:
步骤S1:将单目RGB相机采集的RGB图像输入深度估计网络中,深度估计网络使用基于U-Net的编码器-解码器结构,回归得到RGB图像的深度值,具体包括:
步骤S101:使用单目RGB相机获取场景的RGB图像,再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器;
步骤S102:通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器;
步骤S103:根据单目RGB相机前后两帧图像之间的特征关系进行匹配,得到单目RGB相机运动前后的相对变换矩阵,从而估计单目RGB相机的位姿,使用单目RGB相机的位姿来帮助约束深度估计网络;
步骤S104:过滤掉前后两帧中外观未改变的像素点;
步骤S105:使用双线性采样对源图像进行采样,之后利用像素空间中的L1距离与SSIM实现光度重构误差函数,公式表示为:
式中Pa为源视图,Pb为目标图像,SSIM(Pa,Pb)为Pa与Pb的结构相似性,||Pa-Pb||1为Pa与Pb在像素空间中的L1距离,α为权重系数,re(Pa,Pb)为Pa与Pb的光度重构误差函数;
步骤S106:将每个像素仅与其可见的视图相匹配,逐像素计算光度重投影,公式表示为:
Pt'→t=Pt'<proj(Dt,Tt'→t,R)>
式中Pt'→t为源视图Pt'到目标图像Pt的光度重投影,R为预计算的内参,Tt'→t为每个源视图Pt'相对于目标图像Pt的位姿,Dt为预测的密集深度图,proj( )为投影深度Dt的2D坐标,<>是采样运算符;
步骤S107:最小化计算逐像素光度重投影损失Lr,公式表示为:
式中Lr是逐像素光度重投影损失,Pt'为源视图,Pt为目标图像,Pt'→t为源视图Pt'到目标图像Pt的光度重投影,re( )是光度重构误差函数;
步骤S108:对步骤S107中的Lr应用逐像素二进制掩码ω,有选择地对像素进行加权,公式表示为:
式中,ω∈{0,1},即仅当源视图Pt'到目标图像Pt的光度重投影误差小于原始图像重投影误差时,ω=1;
步骤S109:计算逐像素边缘感知平滑度损失,公式表示为:
步骤S110:先将较低分辨率的深度RGB图像向上采样到输入图像分辨率,然后在此较高输入分辨率下重新投影、重采样并计算误差re,最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合;
步骤S111:将逐像素平滑度与光度重建损失合并为总损失,并对每个像素、尺度和批次进行平均,公式表示为:
Lall=ωLr+ξLs
式中ω为光度重投影损失系数,ξ为平滑度损失系数,Lall为深度估计的总损失;
步骤S112:通过训练学习,不断降低深度估计总损失的值,最终选择总损失最小的深度估计输出图作为对象的深度估计图;
步骤S2:将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云数据的深度信息;
步骤S3:将RGB图像输入PSPNet网络,提取其颜色特征,回归输入RGB图像的颜色信息;
步骤S4:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿;
步骤S5:将逐像素点的估计位姿输入多层感知机,再对置信度进行平均最大池化,回归目标对象整体的6D位姿。
2.如权利要求1所述的基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,步骤S3具体包括如下步骤:
将RGB图像输入PSPNet网络,进行场景解析,该PSPNet网络分四级并逐级对输入信息进行处理,提取其颜色特征,通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。
3.如权利要求1所述的基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,步骤S4具体包括如下步骤:
步骤S401:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素的密集融合特征;
式中为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,则(Rxj+t)为第j个点的真实位姿;Ri'表示世界坐标系到相机坐标系转换的估计旋转矩阵,ti'表示世界坐标系到相机坐标系转换的估计平移矩阵,则(Ri'xj+ti')为其第j个点中的预测位姿;
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(Ri'xk+ti')为从第k个点中预测的预测位姿;
4.如权利要求3所述的基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,步骤S5具体包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的多层感知机,回归输出对象整体的估计6D位姿与所估计6D位姿的置信度分数;
步骤S502:将对象的置信度分数与位姿估计损失函数组合,构成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
步骤S503:通过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110583238.1A CN113393522B (zh) | 2021-05-27 | 2021-05-27 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110583238.1A CN113393522B (zh) | 2021-05-27 | 2021-05-27 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393522A CN113393522A (zh) | 2021-09-14 |
CN113393522B true CN113393522B (zh) | 2022-05-06 |
Family
ID=77619208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110583238.1A Active CN113393522B (zh) | 2021-05-27 | 2021-05-27 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393522B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793472B (zh) * | 2021-09-15 | 2023-01-20 | 应急管理部沈阳消防研究所 | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 |
CN114119753A (zh) * | 2021-12-08 | 2022-03-01 | 北湾科技(武汉)有限公司 | 面向机械臂抓取的透明物体6d姿态估计方法 |
CN114167468B (zh) * | 2021-12-14 | 2023-06-27 | 四川大学 | 一种基于图像和gnss的目标空间定位方法 |
CN114332211B (zh) * | 2022-01-06 | 2022-12-13 | 南京航空航天大学 | 一种基于边缘重建和密集融合网络的零件位姿计算方法 |
CN114663514B (zh) * | 2022-05-25 | 2022-08-23 | 浙江大学计算机创新技术研究院 | 一种基于多模态稠密融合网络的物体6d姿态估计方法 |
CN114863573B (zh) * | 2022-07-08 | 2022-09-23 | 东南大学 | 一种基于单目rgb-d图像的类别级6d姿态估计方法 |
CN117268345B (zh) * | 2023-11-20 | 2024-03-29 | 启元实验室 | 一种高实时性单目深度估计测量方法、装置及电子设备 |
CN117707204B (zh) * | 2024-01-30 | 2024-06-28 | 清华大学 | 基于光电端到端网络的无人机高速避障***及方法 |
CN117689990B (zh) * | 2024-02-02 | 2024-05-31 | 南昌航空大学 | 一种基于6d姿态估计的三支流双向融合网络方法 |
CN117830392B (zh) * | 2024-03-05 | 2024-06-18 | 季华实验室 | 一种环境物体识别方法和成像*** |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783660B2 (en) * | 2018-02-21 | 2020-09-22 | International Business Machines Corporation | Detecting object pose using autoencoders |
CN111161348B (zh) * | 2018-11-08 | 2023-12-05 | 深圳市优必选科技有限公司 | 一种基于单目相机的物***姿估计方法、装置及设备 |
CN111368852A (zh) * | 2018-12-26 | 2020-07-03 | 沈阳新松机器人自动化股份有限公司 | 基于深度学习的物品识别预分拣***、方法及机器人 |
US11915451B2 (en) * | 2019-02-01 | 2024-02-27 | Siemens Aktiengesellschaft | Dense 6-DoF pose object detector |
CN110580725A (zh) * | 2019-09-12 | 2019-12-17 | 浙江大学滨海产业技术研究院 | 一种基于rgb-d相机的箱体分拣方法及*** |
CN110956663B (zh) * | 2019-12-12 | 2023-04-18 | 深圳先进技术研究院 | 一种六维姿态估计的神经网络***及神经网络方法 |
CN111080659A (zh) * | 2019-12-19 | 2020-04-28 | 哈尔滨工业大学 | 一种基于视觉信息的环境语义感知方法 |
CN111179324B (zh) * | 2019-12-30 | 2023-05-05 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111311679B (zh) * | 2020-01-31 | 2022-04-01 | 武汉大学 | 一种基于深度相机的自由漂浮目标位姿估计方法 |
CN111402310B (zh) * | 2020-02-29 | 2023-03-28 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及*** |
CN111899301A (zh) * | 2020-06-02 | 2020-11-06 | 广州中国科学院先进技术研究所 | 一种基于深度学习的工件6d位姿估计方法 |
CN112598735B (zh) * | 2020-12-21 | 2024-02-27 | 西北工业大学 | 一种融合三维模型信息的单张图像物***姿估计方法 |
CN112598721A (zh) * | 2020-12-22 | 2021-04-02 | 绍兴市北大信息技术科创中心 | 基于归一化回归函数单目深度估计***训练方法和网络 |
-
2021
- 2021-05-27 CN CN202110583238.1A patent/CN113393522B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113393522A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113393522B (zh) | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 | |
CN111798475B (zh) | 一种基于点云深度学习的室内环境3d语义地图构建方法 | |
CN108665496B (zh) | 一种基于深度学习的端到端的语义即时定位与建图方法 | |
CN109559320B (zh) | 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及*** | |
CN108416840B (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
CN108242079B (zh) | 一种基于多特征视觉里程计和图优化模型的vslam方法 | |
CN111862213A (zh) | 定位方法及装置、电子设备、计算机可读存储介质 | |
CN108510535A (zh) | 一种基于深度预测和增强子网络的高质量深度估计方法 | |
CN107240129A (zh) | 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法 | |
CN104794737B (zh) | 一种深度信息辅助粒子滤波跟踪方法 | |
CN112836597B (zh) | 基于级联并行卷积神经网络的多手姿态关键点估计方法 | |
CN110675453B (zh) | 一种已知场景中运动目标的自定位方法 | |
CN115421158B (zh) | 自监督学习的固态激光雷达三维语义建图方法与装置 | |
CN112990010A (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
CN112907557A (zh) | 道路检测方法、装置、计算设备及存储介质 | |
CN111998862A (zh) | 一种基于bnn的稠密双目slam方法 | |
CN113077505A (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN115471748A (zh) | 一种面向动态环境的单目视觉slam方法 | |
CN116519106A (zh) | 一种用于测定生猪体重的方法、装置、存储介质和设备 | |
CN115049945A (zh) | 一种基于无人机图像的小麦倒伏面积提取方法和装置 | |
CN117058474B (zh) | 一种基于多传感器融合的深度估计方法及*** | |
CN114266823A (zh) | 一种结合SuperPoint网络特征提取的单目SLAM方法 | |
Liang et al. | DIG-SLAM: an accurate RGB-D SLAM based on instance segmentation and geometric clustering for dynamic indoor scenes | |
CN114708321B (zh) | 一种基于语义的相机位姿估计方法及*** | |
Lee et al. | Camera pose estimation using voxel-based features for autonomous vehicle localization tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |