CN116152345A - 一种嵌入式***实时物体6d位姿和距离估计方法 - Google Patents

一种嵌入式***实时物体6d位姿和距离估计方法 Download PDF

Info

Publication number
CN116152345A
CN116152345A CN202310418673.8A CN202310418673A CN116152345A CN 116152345 A CN116152345 A CN 116152345A CN 202310418673 A CN202310418673 A CN 202310418673A CN 116152345 A CN116152345 A CN 116152345A
Authority
CN
China
Prior art keywords
size
conv
dc2f
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310418673.8A
Other languages
English (en)
Other versions
CN116152345B (zh
Inventor
梁媛媛
李佳美
杨逸芬
邓晓露
包兴鹏
缪韵华
唐菁雯
周雯
周军
柏树春
盛燕
朱霖
杨玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yancheng Shuzhi Technology Co ltd
Original Assignee
Yancheng Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Shuzhi Technology Co ltd filed Critical Yancheng Shuzhi Technology Co ltd
Priority to CN202310418673.8A priority Critical patent/CN116152345B/zh
Publication of CN116152345A publication Critical patent/CN116152345A/zh
Application granted granted Critical
Publication of CN116152345B publication Critical patent/CN116152345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种嵌入式***实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;本发明属于距离测测量、方位测量技术领域,具体为一种嵌入式***实时物体6D位姿和距离估计方法,本发明的优点为:可以在小型嵌入式设备上实时进行目标检测任务;可以在小型嵌入式设备上实时进行物体6D位姿估计;可以在小型嵌入式设备上实时预测物体到相机的距离。

Description

一种嵌入式***实时物体6D位姿和距离估计方法
技术领域
本发明属于距离测测量、方位测量技术领域,具体为一种嵌入式***实时物体6D位姿和距离估计方法。
背景技术
嵌入式***由硬件和软件组成.是能够独立进行运作的器件。其软件内容只包括软件运行环境及其操作***。硬件内容包括信号处理器、存储器、通信模块等在内的多方面的内容。相比于一般的计算机处理***而言,嵌入式***存在较大的差异性,它不能实现大容量的存储功能,因为没有与之相匹配的大容量介质,大部分采用的存储介质有E-PROM、EEPROM等,嵌入式***具有可裁剪性、有统一的接口、操作方便、支持 TCP/IP 协议及其他协议和强稳定性等优点,但嵌入式***具有资源有限,内核小,处理能力有限等缺点。
实时目标检测和6D姿态估计在增强现实、机器人技术和虚拟现实中广泛使用,物体的6D位姿估计是估计从物体坐标系O到相机坐标系C的刚性转换,包括3D的旋转R(根据物体的表面纹理信息影响物体外观)和3D平移T(T决定物体在图片中的位置和比例),6D位姿的求解根据输入的数据不同可分为三类,包括RGB图像输入、点云(point cloud)输入和RGB+点云输入,包含有点云输入的方法一般会使用RGBD相机,具有功耗大的特点,另外由于点云计算需要消耗更大的计算资源,因此不宜部署在嵌入式***中。
发明内容
(一)要解决的技术问题
为解决现有技术的上述问题,本发明提供一种嵌入式设***时物体6D位姿估计方法,可以同时有效解决:
(1)传统算法无法在小型嵌入式设备上实时进行目标检测任务;
(2)传统算法无法在小型嵌入式设备上实时进行物体6D位姿估计;
(3)传统算法无法在小型嵌入式设备上实时预测物体到相机的距离。
(二)技术方案
为了解决上述问题,本发明采用的技术方案为:一种嵌入式***实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;所述公共特征提取层的操作步骤中包括3种类型的操作,分别是Conv、DC2F和SPPFPro;对卷积核K的大小为3×3,跳转步长S为2,扩展像素P为1的卷积操作,可记为Conv:(k=3,s=2,p=1);对卷积核K的大小为1×1,跳转步长S为1,扩展像素P为0的卷积操作,可记为Conv:(k=1,s=1,p=0);进行Conv操作后,图像尺寸从W×W变为:
Figure SMS_1
上式中,W表示输入的图片的宽度(或高度),K表示卷积核大小,P表示扩展像素,S是跳转步长,N是输出图片的宽度(或高度);经验证,Conv操作可使图片的尺寸减少为原图像尺寸的一半,也就是宽度变为原来的一半,高度变为原来的一半;
所述DC2F是在C2F基础上,为解决深度网络的梯度发散问题而提出的一种优化解决方案,所述DC2F包括分割、BottleNeck、通道合并和1×1卷积;所述DC2F的执行流程为:
S1、分割操作,所述DC2F的输入是尺寸为[H,W,C]的特征图像,分割操作是指,将所述分割为为两个尺寸均为[H,W,C/2]的特征图像,分别记为PL和PR;
S2、所述PL经过一次Bottleneck操作后得到特征图像PL2,所述特征图像PL2经过一次Bottleneck操作后得到特征图像PL3;
S3、所述PR经过一次Bottleneck操作后得到特征图像PR2,所述特征图像PR2经过一次Bottleneck操作后得到特征图像PR3;
S4、将特征图像PL3、PL3、PL2、PL、PR3、PR2和PR按照顺序进行通道合并;
S5、使用Conv(K=1,S=1,P=0)进行卷积操作,卷积核数量为C,从而使DC2F的输出与DC2F的输入具有相同的尺寸;
所述SPPFPro由SPPF改进而来,所述SPPFPro的操作流程如下:
S0、所述SPPFPro的输入为特征图像,记为SPPFPro_IN;
S1、对特征图像SPPFPro_IN进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro1;
S2、对SPPFPro1进行Maxpooling操作,所述Maxpooling为最大池化,所用池化核的大小为3×3,跳转步长S为1,扩展像素P为1,记为Maxpooling:(k=3,s=1,p=1),此步输出记为SPPFPro2,可以验证SPPFPro1与SPPFPro2具有相同的尺寸大小;
S3、对SPPFPro2进行Maxpooling操作,所用池化核的大小为5×5,跳转步长S为1,扩展像素P为2,记为Maxpooling:(k=5,s=1,p=2),此步输出记为SPPFPro3,可以验证SPPFPro1与SPPFPro3具有相同的尺寸大小;
S4、对SPPFPro3进行Maxpooling操作,所用池化核的大小为7×7,跳转步长S为1,扩展像素P为3,记为Maxpooling:(k=7,s=1,p=3),此步输出记为SPPFPro4,可以验证SPPFPro1与SPPFPro4具有相同的尺寸大小;
S5、对SPPFPro4进行Maxpooling操作,所用池化核的大小为9×9,跳转步长S为1,扩展像素P为4,记为Maxpooling:(k=9,s=1,p=4),此步输出记为SPPFPro5,可以验证SPPFPro1与SPPFPro5具有相同的尺寸大小;
S6、将特征图像SPPFPro1、SPPFPro2、SPPFPro3、SPPFPro4和SPPFPro5按照顺序进行通道合并操作得到SPPFPro6;
S7、对特征图像SPPFPro6进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro_OUT。
进一步地,所述RGB图像输入层的作用是将原始RGB图像输入到公共特征提取层中。
作为优选地,所述公共特征提取层的作用是提取不同尺度的图像特征,处理流程如下:
S1、接收RGB图像输入层传来的原始RGB图像,记为P0,P0的大小为[640,640,3];
S2、所述P0经过Conv:(k=3,s=2,p=1)操作,得到P1,P1的大小为[320,320,64];
S3、所述P1经过Conv:(k=3,s=2,p=1)操作,得到P2,P2的大小为[160,160,128];
S4、所述P2经过DC2F操作,得到P3,P3的大小为[160,160,128];
S5、所述P3经过Conv:(k=3,s=2,p=1)操作,得到P4,P4的大小为[80,80,256];
S6、所述P4经过DC2F操作,得到P5,P5的大小为[80,80,256];
S7、所述P5经过Conv:(k=3,s=2,p=1)操作,得到P6,P6的大小为[40,40,512];
S8、所述P6经过DC2F操作,得到P7,P7的大小为[40,40,512];
S9、所述P7经过Conv:(k=3,s=2,p=1)操作,得到P8,P8的大小为[20,20,512];
S10、所述P8经过DC2F操作,得到P9,P9的大小为[20,20,512];
S11、所述P9经过SPPFPro操作,得到P10,P10的大小为[20,20,512];
进一步地,所述多尺度特征融合层的作用是将不同尺度的图像特征进行融合,进而得到更高维度的特征图,具体操作步骤如下:
S1、将特征图像P10进行上采样操作,得到P11,所述P11的大小为[40,40,512];
S2、将所述P11与P7进行通道合并操作,得到P12,所述P12的大小为[40,40,1024];
S3、所述P12经DC2F操作后,得到P13,所述P13的大小为[40,40,1024];
S4、所述P13经过Conv:(k=1,s=1,p=0)后得到P14,所述P14的大小为[40,40,256];
S5、将所述P14进行上采样操作,得到P15,所述P15的大小为[80,80,256];
S6、将所述P15与P5进行通道合并操作,得到P16,所述P16的大小为[80,80,512];
S7、所述P16经DC2F操作后,得到P17,所述P17的大小为[80,80,512];
S8、所述P17经过Conv:(k=1,s=1,p=0)后得到P18,所述P18的大小为[80,80,256];
S9、所述P18经过Conv:(k=3,s=2,p=1)后得到P19,所述P19的大小为[40,40,256];
S10、所述P19与P14进行通道合并操作,得到P20,所述P20的大小为[40,40,512];
S11、所述P20经DC2F操作后,得到P21,所述P21的大小为[40,40,512];
S12、所述P21经Conv:(k=3,s=2,p=1)后得到P22,所述P22的大小为[20,20,512];
S13、所述P22与P10进行通道合并操作,得到P23,所述P23的大小为[20,20,1024];
S14、所述P23经Conv:(k=1,s=1,p=0)操作后得到P24,所述P24的大小为[20,20,512];
S15、所述P24经DC2F操作后得到P25,所述P25的大小为[20,20,512]。
进一步地,为实现实时进行目标检测和6D物体姿态估计,本发明针对多头预测输出层提出了一种多任务解耦头结构,所述多头预测输出层包括大尺度检测头、中尺度检测头和小尺度检测头,所述大尺度检测头的输入为P25,所述中尺度检测头的输入为P21,所述小尺度检测头的输入为P18,所述大尺度检测头、中尺度检测头和小尺度检测头都是多任务解耦头结构,具有相同的结构,具体结构如下:
S1、经过Conv:(k=1,s=1,p=0)操作,得到尺寸为[H,W,256]的特征图像Temp;
S2、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到C1_Temp,所述C1_Temp的大小为[H,W,256],所述C1_Temp经过Conv:(k=1,s=1,p=0)操作,得到C2_Temp,所述C2_Temp的大小为[H,W,256],所述C2_Temp经过Conv:(k=1,s=1,p=0)操作,得到C_OUT,所述C_OUT的大小为[H,W,Anchor×C],其中Anchor为候选框个数,C为物体的分类类别数,此处的含义是包含有物体的条件下,属于某一类物体的概率,即为条件概率;
S3、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到D1_Temp,所述D1_Temp的大小为[H,W,256],所述D1_Temp经过Conv:(k=1,s=1,p=0)操作,得到D2_Temp,所述D2_Temp的大小为[H,W,256],所述D2_Temp经过Conv:(k=1,s=1,p=0)操作,得到D_OUT,所述D_OUT的大小为[H,W,Anchor×9×2],其中Anchor为候选框个数,数字9中其中8个表示物体姿态的三维边界框的8个控制顶点,剩余的1个表示三维边界框的质心;数字2表示每个点都有两个坐标:x和y;
S4将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob1_Temp,所述Prob1_Temp的大小为[H,W,256],所述Prob1_Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob2_Temp,所述Prob2_Temp的大小为[H,W,256],所述Prob2_Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob_OUT,所述Prob_OUT的大小为[H,W,Anchor×1],此处1的含义是包含有物体的概率值。
作为优选地,针对6D位姿估计问题,本发明设计了损失计算层,用于计算总的误差损失,以便后续的反向传播,总的误差损失由目标置信度损失、类别损失和三维边界框回归损失三个部分加权平均计算得到,具体为:
Figure SMS_2
上式中,Lpt,Lconf和Lid分别表示三维边界框回归损失、目标置信度损失和类别损失,使用均方差计算三维边界框回归损失和目标置信度损失,使用交叉熵损失函数计算类别损失;λpt和λid的取值均设为1,λconf的取值根据有无预测到物体,分为两种情况,当不含有物体时,λconf的取值为0.2,当含有物体时,λconf的取值为5.0;其中使用的目标置信度函数的具体定义为:
Figure SMS_3
上式中,C(x)为目标置信度,其取值范围是0到1;D(x)为预测三维边界框质心在图像平面的投影点与真实的三维边界框的质心在图像平面的投影点之间的像素距离,d为给定的阈值,这里取值为20;a为坡度因数,这里取值为0.75,可以验证,当D(x)大于或等于20时,目标置信度为0,当D(x)等于0时,目标置信度为1。
进一步地,所述物体距离检测层用于预测物体距离相机的距离,使用对积约束算法对相机拍摄的两帧图像中检测出来的物体进行距离预测。
(三)有益效果
本发明提供一种嵌入式***实时物体6D位姿和距离估计方法,可有效解决:
(1)在小型嵌入式设备上实时进行目标检测任务;
(2)在小型嵌入式设备上实时进行物体6D位姿估计;
(3)在小型嵌入式设备上实时预测物体到相机的距离。
附图说明
图1为本发明提出的一种嵌入式***实时物体6D位姿和距离估计方法的流程图;
图2为本发明提出的公共特征提取层的结构示意图;
图3为本发明提出的多尺度特征融合层的结构示意图;
图4为本发明提出的多头预测输出层的结构示意图;
图5为本发明提出的DC2F的结构示意图;
图6为本发明提出的目标置信度函数的形态图;
图7为本发明提出的目标置信度函数的计算中使用的D(x)的物理含义(预测三维边界框质心在图像平面的投影点与真实的三维边界框的质心在图像平面的投影点之间的像素距离)示意图;
图8为本发明提出的一种嵌入式***实时物体6D位姿和距离估计方法的可视化结果示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本方案实施例中的附图,对本方案实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本方案一部分实施例,而不是全部的实施例;基于本方案中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本方案保护的范围。
一种嵌入式***实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;所述公共特征提取层的操作步骤中包括3种类型的操作,分别是Conv、DC2F和SPPFPro;对卷积核K的大小为3×3,跳转步长S为2,扩展像素P为1的卷积操作,可记为Conv:(k=3,s=2,p=1);对卷积核K的大小为1×1,跳转步长S为1,扩展像素P为0的卷积操作,可记为Conv:(k=1,s=1,p=0);进行Conv操作后,图像尺寸从W×W变为:
Figure SMS_4
上式中,W表示输入的图片的宽度(或高度),K表示卷积核大小,P表示扩展像素,S是跳转步长,N是输出图片的宽度(或高度);经验证,Conv操作可使图片的尺寸减少为原图像尺寸的一半,也就是宽度变为原来的一半,高度变为原来的一半;
所述DC2F是在C2F基础上,为解决深度网络的梯度发散问题而提出的一种优化解决方案,所述DC2F包括分割、BottleNeck、通道合并和1×1卷积;所述DC2F的执行流程为:
S1、分割操作,所述DC2F的输入是尺寸为[H,W,C]的特征图像,分割操作是指,将所述分割为为两个尺寸均为[H,W,C/2]的特征图像,分别记为PL和PR;
S2、所述PL经过一次Bottleneck操作后得到特征图像PL2,所述特征图像PL2经过一次Bottleneck操作后得到特征图像PL3;
S3、所述PR经过一次Bottleneck操作后得到特征图像PR2,所述特征图像PR2经过一次Bottleneck操作后得到特征图像PR3;
S4、将特征图像PL3、PL3、PL2、PL、PR3、PR2和PR按照顺序进行通道合并;
S5、使用Conv(K=1,S=1,P=0)进行卷积操作,卷积核数量为C,从而使DC2F的输出与DC2F的输入具有相同的尺寸;
所述SPPFPro由SPPF改进而来,所述SPPFPro的操作流程如下:
S0、所述SPPFPro的输入为特征图像,记为SPPFPro_IN;
S1、对特征图像SPPFPro_IN进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro1;
S2、对SPPFPro1进行Maxpooling操作,所述Maxpooling为最大池化,所用池化核的大小为3×3,跳转步长S为1,扩展像素P为1,记为Maxpooling:(k=3,s=1,p=1),此步输出记为SPPFPro2,可以验证SPPFPro1与SPPFPro2具有相同的尺寸大小;
S3、对SPPFPro2进行Maxpooling操作,所用池化核的大小为5×5,跳转步长S为1,扩展像素P为2,记为Maxpooling:(k=5,s=1,p=2),此步输出记为SPPFPro3,可以验证SPPFPro1与SPPFPro3具有相同的尺寸大小;
S4、对SPPFPro3进行Maxpooling操作,所用池化核的大小为7×7,跳转步长S为1,扩展像素P为3,记为Maxpooling:(k=7,s=1,p=3),此步输出记为SPPFPro4,可以验证SPPFPro1与SPPFPro4具有相同的尺寸大小;
S5、对SPPFPro4进行Maxpooling操作,所用池化核的大小为9×9,跳转步长S为1,扩展像素P为4,记为Maxpooling:(k=9,s=1,p=4),此步输出记为SPPFPro5,可以验证SPPFPro1与SPPFPro5具有相同的尺寸大小;
S6、将特征图像SPPFPro1、SPPFPro2、SPPFPro3、SPPFPro4和SPPFPro5按照顺序进行通道合并操作得到SPPFPro6;
S7、对特征图像SPPFPro6进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro_OUT。
进一步地,所述RGB图像输入层的作用是将原始RGB图像输入到公共特征提取层中。
作为优选地,所述公共特征提取层的作用是提取不同尺度的图像特征,处理流程如下:
S1、接收RGB图像输入层传来的原始RGB图像,记为P0,P0的大小为[640,640,3];
S2、所述P0经过Conv:(k=3,s=2,p=1)操作,得到P1,P1的大小为[320,320,64];
S3、所述P1经过Conv:(k=3,s=2,p=1)操作,得到P2,P2的大小为[160,160,128];
S4、所述P2经过DC2F操作,得到P3,P3的大小为[160,160,128];
S5、所述P3经过Conv:(k=3,s=2,p=1)操作,得到P4,P4的大小为[80,80,256];
S6、所述P4经过DC2F操作,得到P5,P5的大小为[80,80,256];
S7、所述P5经过Conv:(k=3,s=2,p=1)操作,得到P6,P6的大小为[40,40,512];
S8、所述P6经过DC2F操作,得到P7,P7的大小为[40,40,512];
S9、所述P7经过Conv:(k=3,s=2,p=1)操作,得到P8,P8的大小为[20,20,512];
S10、所述P8经过DC2F操作,得到P9,P9的大小为[20,20,512];
S11、所述P9经过SPPFPro操作,得到P10,P10的大小为[20,20,512];
进一步地,所述多尺度特征融合层的作用是将不同尺度的图像特征进行融合,进而得到更高维度的特征图,具体操作步骤如下:
S1、将特征图像P10进行上采样操作,得到P11,所述P11的大小为[40,40,512];
S2、将所述P11与P7进行通道合并操作,得到P12,所述P12的大小为[40,40,1024];
S3、所述P12经DC2F操作后,得到P13,所述P13的大小为[40,40,1024];
S4、所述P13经过Conv:(k=1,s=1,p=0)后得到P14,所述P14的大小为[40,40,256];
S5、将所述P14进行上采样操作,得到P15,所述P15的大小为[80,80,256];
S6、将所述P15与P5进行通道合并操作,得到P16,所述P16的大小为[80,80,512];
S7、所述P16经DC2F操作后,得到P17,所述P17的大小为[80,80,512];
S8、所述P17经过Conv:(k=1,s=1,p=0)后得到P18,所述P18的大小为[80,80,256];
S9、所述P18经过Conv:(k=3,s=2,p=1)后得到P19,所述P19的大小为[40,40,256];
S10、所述P19与P14进行通道合并操作,得到P20,所述P20的大小为[40,40,512];
S11、所述P20经DC2F操作后,得到P21,所述P21的大小为[40,40,512];
S12、所述P21经Conv:(k=3,s=2,p=1)后得到P22,所述P22的大小为[20,20,512];
S13、所述P22与P10进行通道合并操作,得到P23,所述P23的大小为[20,20,1024];
S14、所述P23经Conv:(k=1,s=1,p=0)操作后得到P24,所述P24的大小为[20,20,512];
S15、所述P24经DC2F操作后得到P25,所述P25的大小为[20,20,512]。
进一步地,为实现实时进行目标检测和6D物体姿态估计,本发明针对多头预测输出层提出了一种多任务解耦头结构,所述多头预测输出层包括大尺度检测头、中尺度检测头和小尺度检测头,所述大尺度检测头的输入为P25,所述中尺度检测头的输入为P21,所述小尺度检测头的输入为P18,所述大尺度检测头、中尺度检测头和小尺度检测头都是多任务解耦头结构,具有相同的结构,具体结构如下:
S1、经过Conv:(k=1,s=1,p=0)操作,得到尺寸为[H,W,256]的特征图像Temp;
S2、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到C1_Temp,所述C1_Temp的大小为[H,W,256],所述C1_Temp经过Conv:(k=1,s=1,p=0)操作,得到C2_Temp,所述C2_Temp的大小为[H,W,256],所述C2_Temp经过Conv:(k=1,s=1,p=0)操作,得到C_OUT,所述C_OUT的大小为[H,W,Anchor×C],其中Anchor为候选框个数,C为物体的分类类别数,此处的含义是包含有物体的条件下,属于某一类物体的概率,即为条件概率;
S3、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到D1_Temp,所述D1_Temp的大小为[H,W,256],所述D1_Temp经过Conv:(k=1,s=1,p=0)操作,得到D2_Temp,所述D2_Temp的大小为[H,W,256],所述D2_Temp经过Conv:(k=1,s=1,p=0)操作,得到D_OUT,所述D_OUT的大小为[H,W,Anchor×9×2],其中Anchor为候选框个数,数字9中其中8个表示物体姿态的三维边界框的8个控制顶点,剩余的1个表示三维边界框的质心;数字2表示每个点都有两个坐标:x和y;
S4将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob1_Temp,所述Prob1_Temp的大小为[H,W,256],所述Prob1_Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob2_Temp,所述Prob2_Temp的大小为[H,W,256],所述Prob2_Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob_OUT,所述Prob_OUT的大小为[H,W,Anchor×1],此处1的含义是包含有物体的概率值。
作为优选地,针对6D位姿估计问题,本发明设计了损失计算层,用于计算总的误差损失,以便后续的反向传播,总的误差损失由目标置信度损失、类别损失和三维边界框回归损失三个部分加权平均计算得到,具体为:
Figure SMS_5
上式中,Lpt,Lconf和Lid分别表示三维边界框回归损失、目标置信度损失和类别损失,使用均方差计算三维边界框回归损失和目标置信度损失,使用交叉熵损失函数计算类别损失;λpt和λid的取值均设为1,λconf的取值根据有无预测到物体,分为两种情况,当不含有物体时,λconf的取值为0.2,当含有物体时,λconf的取值为5.0;
进一步地,所述物体距离检测层用于预测物体距离相机的距离,使用对积约束算法对相机拍摄的两帧图像中检测出来的物体进行距离预测。
实施例一:
一种嵌入式***实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;实施方式如下:
S1、在使用前,需要制作数据集,数据集由RGB图像和对应的标签构成,标签包括物体所述类别、三维边界框的8个交点在图像平面的投影坐标以及三维边界框的质心在图像平面的投影坐标;
S2、训练网络进行参数调节,公共特征提取层、多尺度特征融合层和多头预测输出层共同构成的网络模型的参数需要进行学习才能使用,因此需要利用S1中制作好的数据集进行训练;使用损失计算层进行反向传播,使参数逐渐调整,将损失函数达到最小值时的参数进行固化,得到最终的模型参数;
S3、在使用(预测)阶段,只需使用摄像头拍摄图像,该方法即可进行预测,可在小型嵌入式设备上实时进行目标检测任务、实时进行物体6D位姿估计;使用物体距离检测层实时预测物体到相机(嵌入式设备搭载双目相机)的距离。
以上便是本发明具体的工作流程,下次使用时重复此步骤即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (7)

1.一种嵌入式***实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;所述公共特征提取层的操作步骤中包括3种类型的操作,分别是Conv、DC2F和SPPFPro;对卷积核K的大小为3×3,跳转步长S为2,扩展像素P为1的卷积操作,可记为Conv:(k=3,s=2,p=1);对卷积核K的大小为1×1,跳转步长S为1,扩展像素P为0的卷积操作,可记为Conv:(k=1,s=1,p=0);进行Conv操作后,图像尺寸从W×W变为:
Figure QLYQS_1
上式中,W表示输入的图片的宽度(或高度),K表示卷积核大小,P表示扩展像素,S是跳转步长,N是输出图片的宽度(或高度);经验证,Conv操作可使图片的尺寸减少为原图像尺寸的一半,也就是宽度变为原来的一半,高度变为原来的一半;
所述DC2F包括分割、BottleNeck、通道合并和1×1卷积;所述DC2F的执行流程为:
S1、分割操作,所述DC2F的输入是尺寸为[H,W,C]的特征图像,分割操作是指,将所述分割为为两个尺寸均为[H,W,C/2]的特征图像,分别记为PL和PR;
S2、所述PL经过一次Bottleneck操作后得到特征图像PL2,所述特征图像PL2经过一次Bottleneck操作后得到特征图像PL3;
S3、所述PR经过一次Bottleneck操作后得到特征图像PR2,所述特征图像PR2经过一次Bottleneck操作后得到特征图像PR3;
S4、将特征图像PL3、PL3、PL2、PL、PR3、PR2和PR按照顺序进行通道合并;
S5、使用Conv(K=1,S=1,P=0)进行卷积操作,卷积核数量为C,从而使DC2F的输出与DC2F的输入具有相同的尺寸;
所述SPPFPro由SPPF改进而来,所述SPPFPro的操作流程如下:
S0、所述SPPFPro的输入为特征图像,记为SPPFPro_IN;
S1、对特征图像SPPFPro_IN进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro1;
S2、对SPPFPro1进行Maxpooling操作,所述Maxpooling为最大池化,所用池化核的大小为3×3,跳转步长S为1,扩展像素P为1,记为Maxpooling:(k=3,s=1,p=1),此步输出记为SPPFPro2,可以验证SPPFPro1与SPPFPro2具有相同的尺寸大小;
S3、对SPPFPro2进行Maxpooling操作,所用池化核的大小为5×5,跳转步长S为1,扩展像素P为2,记为Maxpooling:(k=5,s=1,p=2),此步输出记为SPPFPro3,可以验证SPPFPro1与SPPFPro3具有相同的尺寸大小;
S4、对SPPFPro3进行Maxpooling操作,所用池化核的大小为7×7,跳转步长S为1,扩展像素P为3,记为Maxpooling:(k=7,s=1,p=3),此步输出记为SPPFPro4,可以验证SPPFPro1与SPPFPro4具有相同的尺寸大小;
S5、对SPPFPro4进行Maxpooling操作,所用池化核的大小为9×9,跳转步长S为1,扩展像素P为4,记为Maxpooling:(k=9,s=1,p=4),此步输出记为SPPFPro5,可以验证SPPFPro1与SPPFPro5具有相同的尺寸大小;
S6、将特征图像SPPFPro1、SPPFPro2、SPPFPro3、SPPFPro4和SPPFPro5按照顺序进行通道合并操作得到SPPFPro6;
S7、对特征图像SPPFPro6进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro_OUT。
2.根据权利要求1所述的一种嵌入式***实时物体6D位姿和距离估计方法,其特征在于:所述多头预测输出层包括大尺度检测头、中尺度检测头和小尺度检测头,所述大尺度检测头的输入为P25,所述中尺度检测头的输入为P21,所述小尺度检测头的输入为P18,所述大尺度检测头、中尺度检测头和小尺度检测头具有相同的结构,此结构称为多任务解耦头结构,具体结构如下:
S1、经过Conv:(k=1,s=1,p=0)操作,得到尺寸为[H,W,256]的特征图像Temp;
S2、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到C1_Temp,所述C1_Temp的大小为[H,W,256],所述C1_Temp经过Conv:(k=1,s=1,p=0)操作,得到C2_Temp,所述C2_Temp的大小为[H,W,256],所述C2_Temp经过Conv:(k=1,s=1,p=0)操作,得到C_OUT,所述C_OUT的大小为[H,W,Anchor×C],其中Anchor为候选框个数,C为物体的分类类别数,此处的含义是包含有物体的条件下,属于某一类物体的概率,即为条件概率;
S3、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到D1_Temp,所述D1_Temp的大小为[H,W,256],所述D1_Temp经过Conv:(k=1,s=1,p=0)操作,得到D2_Temp,所述D2_Temp的大小为[H,W,256],所述D2_Temp经过Conv:(k=1,s=1,p=0)操作,得到D_OUT,所述D_OUT的大小为[H,W,Anchor×9×2],其中Anchor为候选框个数,数字9中其中8个表示物体姿态的三维边界框的8个控制顶点,剩余的1个表示三维边界框的质心;数字2表示每个点都有两个坐标:x和y;
S4将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob1_Temp,所述Prob1_Temp的大小为[H,W,256],所述Prob1_Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob2_Temp,所述Prob2_Temp的大小为[H,W,256],所述Prob2_Temp经过Conv:(k=1,s=1,p=0)操作,得到Prob_OUT,所述Prob_OUT的大小为[H,W,Anchor×1],此处1的含义是包含有物体的概率值。
3.根据权利要求2所述的一种嵌入式***实时物体6D位姿和距离估计方法,其特征在于:所述公共特征提取层的处理流程如下:
S1、接收RGB图像输入层传来的原始RGB图像,记为P0,P0的大小为[640,640,3];
S2、所述P0经过Conv:(k=3,s=2,p=1)操作,得到P1,P1的大小为[320,320,64];
S3、所述P1经过Conv:(k=3,s=2,p=1)操作,得到P2,P2的大小为[160,160,128];
S4、所述P2经过DC2F操作,得到P3,P3的大小为[160,160,128];
S5、所述P3经过Conv:(k=3,s=2,p=1)操作,得到P4,P4的大小为[80,80,256];
S6、所述P4经过DC2F操作,得到P5,P5的大小为[80,80,256];
S7、所述P5经过Conv:(k=3,s=2,p=1)操作,得到P6,P6的大小为[40,40,512];
S8、所述P6经过DC2F操作,得到P7,P7的大小为[40,40,512];
S9、所述P7经过Conv:(k=3,s=2,p=1)操作,得到P8,P8的大小为[20,20,512];
S10、所述P8经过DC2F操作,得到P9,P9的大小为[20,20,512];
S11、所述P9经过SPPFPro操作,得到P10,P10的大小为[20,20,512]。
4.根据权利要求3所述的一种嵌入式***实时物体6D位姿和距离估计方法,其特征在于:所述多尺度特征融合层的具体操作步骤如下:
S1、将特征图像P10进行上采样操作,得到P11,所述P11的大小为[40,40,512];
S2、将所述P11与P7进行通道合并操作,得到P12,所述P12的大小为[40,40,1024];
S3、所述P12经DC2F操作后,得到P13,所述P13的大小为[40,40,1024];
S4、所述P13经过Conv:(k=1,s=1,p=0)后得到P14,所述P14的大小为[40,40,256];
S5、将所述P14进行上采样操作,得到P15,所述P15的大小为[80,80,256];
S6、将所述P15与P5进行通道合并操作,得到P16,所述P16的大小为[80,80,512];
S7、所述P16经DC2F操作后,得到P17,所述P17的大小为[80,80,512];
S8、所述P17经过Conv:(k=1,s=1,p=0)后得到P18,所述P18的大小为[80,80,256];
S9、所述P18经过Conv:(k=3,s=2,p=1)后得到P19,所述P19的大小为[40,40,256];
S10、所述P19与P14进行通道合并操作,得到P20,所述P20的大小为[40,40,512];
S11、所述P20经DC2F操作后,得到P21,所述P21的大小为[40,40,512];
S12、所述P21经Conv:(k=3,s=2,p=1)后得到P22,所述P22的大小为[20,20,512];
S13、所述P22与P10进行通道合并操作,得到P23,所述P23的大小为[20,20,1024];
S14、所述P23经Conv:(k=1,s=1,p=0)操作后得到P24,所述P24的大小为[20,20,512];
S15、所述P24经DC2F操作后得到P25,所述P25的大小为[20,20,512]。
5.根据权利要求4所述的一种嵌入式***实时物体6D位姿和距离估计方法,其特征在于:所述损失计算层用于计算总的误差损失,总的误差损失由目标置信度损失、类别损失和三维边界框回归损失三个部分加权平均计算得到,具体为:
Figure QLYQS_2
上式中,Lpt,Lconf和Lid分别表示三维边界框回归损失、目标置信度损失和类别损失,使用均方差计算三维边界框回归损失和目标置信度损失,使用交叉熵损失函数计算类别损失;λpt和λid的取值均设为1,λconf的取值根据有无预测到物体,分为两种情况,当不含有物体时,λconf的取值为0.2,当含有物体时,λconf的取值为5.0。
6.根据权利要求5所述的一种嵌入式***实时物体6D位姿和距离估计方法,其特征在于:所述物体距离检测层用于预测物体距离相机的距离,使用对积约束算法对相机拍摄的两帧图像中检测出来的物体进行距离预测。
7.根据权利要求6所述的一种嵌入式***实时物体6D位姿和距离估计方法,其特征在于:所述RGB图像输入层的作用是将原始RGB图像输入到公共特征提取层中。
CN202310418673.8A 2023-04-19 2023-04-19 一种嵌入式***实时物体6d位姿和距离估计方法 Active CN116152345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310418673.8A CN116152345B (zh) 2023-04-19 2023-04-19 一种嵌入式***实时物体6d位姿和距离估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310418673.8A CN116152345B (zh) 2023-04-19 2023-04-19 一种嵌入式***实时物体6d位姿和距离估计方法

Publications (2)

Publication Number Publication Date
CN116152345A true CN116152345A (zh) 2023-05-23
CN116152345B CN116152345B (zh) 2023-07-14

Family

ID=86356496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310418673.8A Active CN116152345B (zh) 2023-04-19 2023-04-19 一种嵌入式***实时物体6d位姿和距离估计方法

Country Status (1)

Country Link
CN (1) CN116152345B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930454A (zh) * 2019-11-01 2020-03-27 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113221647A (zh) * 2021-04-08 2021-08-06 湖南大学 一种融合点云局部特征的6d位姿估计方法
CN113240736A (zh) * 2021-02-23 2021-08-10 广东工业大学 基于yolo6d改进网络的位姿估计方法及装置
CN115223130A (zh) * 2022-09-20 2022-10-21 南京理工大学 基于改进YOLOv5的多任务全景驾驶感知方法与***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930454A (zh) * 2019-11-01 2020-03-27 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113240736A (zh) * 2021-02-23 2021-08-10 广东工业大学 基于yolo6d改进网络的位姿估计方法及装置
CN113221647A (zh) * 2021-04-08 2021-08-06 湖南大学 一种融合点云局部特征的6d位姿估计方法
CN115223130A (zh) * 2022-09-20 2022-10-21 南京理工大学 基于改进YOLOv5的多任务全景驾驶感知方法与***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAN LIU,ETC: "A Novel 6D Pose Estimation Method for Indoor Objects Based on Monocular Regression Depth", 《2021 CHINA AUTOMATION CONGRESS (CAC)》 *

Also Published As

Publication number Publication date
CN116152345B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
JP6789402B2 (ja) 画像内の物体の姿の確定方法、装置、設備及び記憶媒体
CN108229479B (zh) 语义分割模型的训练方法和装置、电子设备、存储介质
CN109870983B (zh) 处理托盘堆垛图像的方法、装置及用于仓储拣货的***
US11216971B2 (en) Three-dimensional bounding box from two-dimensional image and point cloud data
CN107705322A (zh) 运动目标识别跟踪方法和***
WO2023193401A1 (zh) 点云检测模型训练方法、装置、电子设备及存储介质
CN110826357A (zh) 对象三维检测及智能驾驶控制的方法、装置、介质及设备
CN110443279B (zh) 一种基于轻量级神经网络的无人机图像车辆检测方法
CN112927353A (zh) 基于二维目标检测和模型对齐的三维场景重建方法、存储介质及终端
WO2023193400A1 (zh) 点云检测和分割方法、装置,以及,电子设备
CN112215861A (zh) 一种足球检测方法、装置、计算机可读存储介质及机器人
CN113112542A (zh) 一种视觉定位方法、装置、电子设备及存储介质
CN110910375A (zh) 基于半监督学习的检测模型训练方法、装置、设备及介质
CN114973057B (zh) 基于人工智能的视频图像检测方法及相关设备
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及***
CN113240736A (zh) 基于yolo6d改进网络的位姿估计方法及装置
CN116402976A (zh) 三维目标检测模型训练方法及装置
CN111626241A (zh) 一种人脸检测方法及装置
WO2022247126A1 (zh) 视觉定位方法、装置、设备、介质及程序
US20210304411A1 (en) Map construction method, apparatus, storage medium and electronic device
CN113436251A (zh) 一种基于改进的yolo6d算法的位姿估计***及方法
CN106778822B (zh) 基于漏斗变换的图像直线检测方法
CN110490165B (zh) 一种基于卷积神经网络的动态手势跟踪方法
CN116152345B (zh) 一种嵌入式***实时物体6d位姿和距离估计方法
CN115205793B (zh) 基于深度学习二次确认的电力机房烟雾检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant