CN113065546B - 一种基于注意力机制和霍夫投票的目标位姿估计方法及*** - Google Patents
一种基于注意力机制和霍夫投票的目标位姿估计方法及*** Download PDFInfo
- Publication number
- CN113065546B CN113065546B CN202110211748.6A CN202110211748A CN113065546B CN 113065546 B CN113065546 B CN 113065546B CN 202110211748 A CN202110211748 A CN 202110211748A CN 113065546 B CN113065546 B CN 113065546B
- Authority
- CN
- China
- Prior art keywords
- network
- target object
- dimensional
- estimation
- translation vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000007246 mechanism Effects 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000013519 translation Methods 0.000 claims abstract description 110
- 239000011159 matrix material Substances 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 38
- 238000010606 normalization Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 27
- 230000002776 aggregation Effects 0.000 claims description 25
- 238000004220 aggregation Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 230000005484 gravity Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 239000006227 byproduct Substances 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009616 inductively coupled plasma Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制和霍夫投票的目标位姿估计方法及***,该方法包括如下步骤:获取彩色图像和深度图像;对彩色图像进行分割与裁剪,得到各目标物体的彩色和深度图像块;采用两种策略估计目标物体6维位姿,针对3维旋转矩阵,基于双向空间注意力的特征提取网络,利用目标表面二维特征约束进行鲁棒特征提取,再利用多层感知网络回归出目标3维旋转矩阵;针对3维平移向量,重建目标物体点云并归一化点云数据,采用霍夫投票网络逐点估计点云3维平移方向向量,最后建立平移中心直线集,求解空间最近点得到目标3维平移向量。本发明方法分别估计旋转矩阵和平移向量,执行速度快、精度高。
Description
技术领域
本发明涉及机器人视觉感知及计算机视觉领域,具体涉及一种基于注意力机制和霍夫投票的目标位姿估计方法及***。
背景技术
物***姿估计指的是在相机视角下,识别当前场景中的已知物体,并估计出其在相机3维空间坐标系下的3轴朝向和3轴位置,更具体地,指的是物体3维模型从自身坐标系转换至相机坐标系的刚体变换矩阵T,由3维旋转矩阵R和3维平移向量t组成,二者构成了物体的6维位姿P。物***姿估计是机器人场景理解中的一个关键内容,利用计算机视觉技术在机器人抓取、人机交互和增强现实领域中已取得了一系列成果,并得到了广泛应用。由于场景复杂、位姿变化范围大,物***姿估计方法面临着诸多挑战,需要克服背景干扰、混乱堆叠遮挡、光照差异和表面弱纹理等问题给位姿估计带来的影响。
早期物***姿估计方法主要有模块匹配和特征点检测,基于模板匹配的方法首先检测出目标区域,然后将提取到的图像与位姿数据库中标准模板图像进行匹配,选择相似度最高的模板位姿作为结果;基于特征点检测的方法首先计算出输入图像中的图像特征,如SIFT、ORB、HOG等,然后与物体图像中的各已知特征点匹配,建立2D-3D对应关系,最后利用PnP方法解算出物***姿。此外,在深度图像可用的情况下,可以利用ICP方法迭代优化目标位姿,或者利用3维点特征方法建立更鲁棒的2D-3D点对应关系,提高物***姿精度。但由于需要针对特定物体人为计算模板或特征点,鲁棒性差、过程繁琐,并且此类方法也易受背景或者遮挡影响,精度低。
现如今,基于深度学习的计算机视觉处理方法由于直接从原始图像提取特征,过程简便,并且从海量数据样本中自主学习特征描述并拟合处理结果,鲁棒性高、泛化能力强,已成为主流方法。具体到物***姿估计,主要方法有:1)利用卷积神经网络提取图像卷积特征,然后利用多层感知机网络拟合特征与输出位姿之间的关系,输出目标物体6维位姿;2)基于传统2D-3D对应关系思路,利用深度网络直接预测目标物体3维关键点的2维图像坐标,然后利用PnP方法求解物***姿;3)利用霍夫网络进行逐点位姿或者关键点预测,然后进行评估优化,选择最佳参数作为输出结果。针对深度图像可用的场景,一般采用PointNet类似网络从提取到的点云中学习三维特征,然后与彩色图像特征进行融合,用于后续位姿预测处理。相比于早期位姿估计方法,基于深度学习方法从特征提取能力、位姿预测精度、泛化性能上都得到了很大提高,但由于深度网络的不可解释性,如何利用网络高效提取图像特征并进行精确位姿预测一直是该领域的研究方向。
发明内容
本发明提供了一种基于注意力机制和霍夫投票的目标位姿估计方法及***,针对6维位姿中3维旋转矩阵和3维平移向量对彩色、深度图像各自不同的约束特点,采用不同的策略分别进行参数估计,能够高效提取目标物体彩色、深度图像特征,建立更精确的位姿参数估计模型,同时可以克服大规模神经网络带来的计算冗余,结构简单、位姿估计精度高。
为了实现上述目的,本发明提供了如下技术方案:
一方面,一种基于注意力机制和霍夫投票的目标位姿估计方法,包括如下几个步骤:
步骤S1:获取包含多目标物体场景下的彩色图像与深度图像;
步骤S2:通过目标分割方法从彩色图像中获得各目标物体的类别和分割掩码;
目标分割方法采用现有公知的分割方法,如Mask RCNN实例分割网络;
物体类别取决于使用的训练数据集中物体类别,如YCB数据集包含21个生活场景物体,瓶子,罐子,杯子,椅子等;
步骤S3:利用步骤S2中获取的各物体分割掩码,对彩色图像与深度图像进行裁剪与拼接,提取各目标物体图像块,并进行归一化处理;
从整幅彩图图像、深度图像中裁剪出对应目标物体的彩色图像块、深度图像块,并进行通道拼接,获得包含3通道彩色和1通道深度的4通道各目标物体图像块O,oj∈O,j=1,2,...,k,k为图像中目标物体数量;
步骤S4:构建旋转估计网络以及平移向量估计网络;
所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络,所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络;
所述平移向量估计网络包含串联的PointNet++网络和逐点霍夫投票网络;
步骤S5:网络训练;
利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像,按照步骤S1-步骤S3处理,以得到的归一化处理后的各目标物体图像块、对应的物体点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练,训练过程中,以旋转矩阵的绝对角度误差作为旋转估计网络损失,以平移向量的绝对角度误差作为平移向量估计网络损失;
步骤S6:将待进行目标位姿估计的目标物体图像按照步骤S1-步骤S3处理后,输入到利用步骤S5训练好的所述旋转估计网络和平移向量估计网络中,分别进行3维旋转矩阵估计和3维平移向量估计,实现目标位姿估计。
进一步地,将各目标物体图像块进行归一化处理的具体过程如下:
旋转估计归一化:从各目标物体图像块O中彩色通道值、深度通道值分别从[0,255]、[near,far]范围归一化至[-1,1];再以各目标物体图像块O的最小外接矩形为边界,保持设定的纵横比,对各目标物体图像块O进行上采样或下采样,放缩至固定矩形尺寸,空白区域以0填充,获得宽、高尺寸统一的各目标物体图像块OR;
三维点云归一化:从各目标物体图像块O中获取各目标物体三维点云,将三维点云彩色值以及深度值分别从[0,255]、[near,far]范围归一化至[-1,1],并将三维点云的三维坐标进行重心移除,获得偏移坐标,并对偏移坐标进行单位向量化,获得归一化坐标,从而获得各目标物体在同一空间下的三维点云数据;
其中,near、far分别为目标物体深度图像的最近、最远值。
进一步地,所述空间聚合卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征Fc:[H×W,H,W],并作为空间聚合卷积神经网络的输出数据;
所述空间分布卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征Fd:[H×W,H,W],并作为空间分布网络卷积神经网络的输出数据。
所述空间分布网络获得H×W个局部点与全局H×W个点的特征约束关系,依照特征空间位置逐通道提取对应点特征值,并按照特征图像二维位置进行排列整合,生成分布特征Fd:[H×W,H,W],所述特征图像中每个位置包含H×W个值,表示H×W个全局点与该位置的分布约束关系;
所述旋转估计网络利用ResNet34卷积神经网络获取卷积特征,然后将获得的卷积特征分别输入到空间聚合卷积神经网络和空间分布卷积神经网络,提取聚合特征和分布特征;利用特征拼接网络将聚合特征和分布特征拼接后,再利用多尺度池化网络对拼接后的特征进行多尺度池化操作,获得目标物体图像的特征向量;最后,利用多层感知机网络从目标物体图像的特征向量中回归出目标物体的3维旋转矩阵;
进一步地,所述平移向量估计网络是利用归一化处理后的目标物体三维点云输入至PointNet++网络,获得点云特征,再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。
进一步地,利用各目标物体的三维点云坐标和单位向量建立各目标物体3维平移向量所在直线方程集,通过求解三维空间距直线集的最近点,得到各目标物体3维平移向量t。
进一步地,将各目标物体三维点云进行归一化处理具体是指:
首先,利用相机内参和小孔成像模型从各目标物体图像块O中获取某一目标物体三维点云V,V=(X,Y,Z,I);
其中:构成相机内参K,fx、fy为等效焦距,ui、vi分别为图像块O中像素i在原输入图像中的横纵坐标,I=(R,G,B)为彩色值,D(ui,vi)为图像块O中像素i深度值,cx、cy为图像坐标偏移,i=1,2,...,m,m表示目标物体图像块中的像素数量;
接着,计算三维点云V的三维重心对三维点云V进行归一化处理,彩色值I各通道从[0,255]归一化至[-1,1],三维点云的三维坐标首先移除重心,获得偏移坐标ΔS(ΔX,ΔY,ΔZ)=(X-Gx,Y-Gy,Z-Gz),然后对ΔS进行单位向量化norm(ΔX,ΔY,ΔZ),得到归一化向量结合彩色归一化值得到归一化后的三维点云Vnorm:
进一步地,对旋转估计网络进行训练,是利用旋转估计归一化后的图像块作为旋转估计网络的输入数据,输出旋转矩阵四元数Q,对旋转矩阵四元数Q进行单位化,然后转成旋转矩阵以旋转矩阵与旋转真值之间的绝对角度误差LR作为旋转矩阵损失:E为单位矩阵,将LR反向传播,采用梯度下降方法对旋转估计网络进行训练,更新基于双向空间注意力的特征提取网络参数。
进一步地,对平移向量估计网络训练是以图像块O的归一化后的三维点云为输入数据,以目标物体各表面点云指向3维平移向量的单位向量作为输出数据,以角度误差Lt作为平移向量损失:将Lt反向传播,采用梯度下降方法对平移向量估计网络进行参数训练,更新平移向量估计网络参数,其中,表示第i个像素的平移向量真值:其中,为目标物体三维平移向量真值,m表示目标物体图像块中的像素数量。
在实际的平移向量估计中,以获得的单位向量W构造目标物体点云中任意点连接3维平移向量的直线方程集L,li∈L,i=1,2,...,m,其中l为三维空间直线方程:然后求解三维空间中距直线方程集L最近点q:(x,y,z)即为目标物体3维平移向量t。
另一方面,一种基于注意力机制和霍夫投票的目标位姿估计***,包括:
图像采集模块:利用RGB-D相机获取包含多目标物体场景中的彩色图像与深度图像;
目标分割模块:用于对彩色图像进行分割,获得各目标物体的类别和分割掩码;
目标提取模块:基于各物体分割掩码,对彩色图像与深度图像进行裁剪与拼接,提取各目标物体图像块;
归一化模块:对各目标物体图像块中的三维点云的坐标、彩色值以及深度值进行归一化处理,获得各目标物体在同一空间下的三维点云数据;
位姿估计网络构建模块:用于构建旋转估计网络以及平移向量估计网络;
所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络,所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络;
所述平移向量估计网络包含串联的PointNet++网络和逐点投票网络;
网络训练模块:利用深度学习工作站对位姿估计网络进行训练;
利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像,调用图像采集模块、目标分割模块、目标提取模块以及归一化模块进行处理,以得到的归一化处理后的各目标物体图像块、对应的物体点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练,训练过程中,以旋转矩阵的绝对角度误差作为旋转估计网络损失,以平移向量的绝对角度误差作为平移向量估计网络损失,且以梯度下降形式进行参数更新;
位姿估计模块:利用训练好的所述旋转估计网络和平移向量估计网络,对待进行目标位姿估计的目标物体图像块,分别进行3维旋转矩阵估计和3维平移向量估计,实现目标位姿估计。
进一步地,所述空间聚合卷积神经网络采用卷积神经网络架构,利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征Fc:[H×W,H,W],并作为空间聚合卷积神经网络的输出数据;
所述空间分布卷积神经网络采用卷积神经网络架构,利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征Fd:[H×W,H,W],并作为空间分布网络卷积神经网络的输出数据;
所述平移向量估计网络包括PointNet++网络和逐点霍夫投票网络,所述逐点霍夫投票网络采用多层感知机网络架构;
平移向量估计网络利用归一化处理后的目标物体三维点云输入至PointNet++网络,获得点云特征,再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。
3维旋转矩阵和3维平移向量估计网络相互独立,训练过程互不干扰,可以并行完成,获得s目标物***姿R和t,得到目标物***姿P=|R|t|。
有益效果
本发明提供了一种基于注意力机制和霍夫投票的目标位姿估计方法及***,该方法包含如下步骤:获取彩色图像和深度图像;对彩色图像进行分割与裁剪,得到各目标物体的彩色和深度图像块;采用两种策略估计目标物体6维位姿,针对3维旋转矩阵,基于双向空间注意力的特征提取网络,利用目标表面二维特征约束进行鲁棒特征提取,再利用多层感知网络回归出目标3维旋转矩阵;针对3维平移向量,重建目标物体点云并归一化点云数据,采用霍夫投票网络逐点估计点云3维平移方向向量,最后建立平移中心直线集,求解空间最近点得到目标3维平移向量。
相较于现有技术而言,具有以下优点:
1.针对位姿参数3维旋转矩阵和3维平移向量在目标物***姿变化时对彩色、深度图像各自不同的约束特点,采用不同的策略分别进行参数估计,能有效提取目标物体彩色、深度图像特征,建立更精准的参数估计模型,提高网络的表述和推理能力;
2.输入输出数据采用单位化形式,3维旋转矩阵估计网络输入规范至[0,1]空间的彩色、图像数据,输出旋转矩阵的单位四元数形式,3维平移向量估计网络输入规范至[-1,1]空间的点云数据,逐点输出指向平移向量的单位方向向量,有效解决了不同维度、量纲数据下训练梯度消失、***或者不稳定的问题,加快网络收敛。
附图说明
图1为本发明实例中涉及的目标位姿估计方法网络结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述:
本发明针对现有物***姿估计方法的问题,提供了一种基于注意力机制和霍夫投票的目标位姿估计方法,具体网络结构如图1所示,包括如下步骤:
步骤S1:获取包含目标物体场景下的彩色、深度图像;
步骤S2:通过现有最先进的目标分割方法从彩色图像中获得各物体的类别和分割掩码;
步骤S3:利用步骤S2中获取的各物体分割掩码从输入图像中裁剪出对应物体的彩色、深度图像,并进行通道拼接,获得包含3通道彩色和1通道深度的4通道各目标物体图像块O,oj∈O,j=1,2,...,k,k为图像中目标物体数量;
步骤S4:构建旋转估计网络以及平移向量估计网络;
所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络,所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络;
所述平移向量估计网络包含串联的PointNet++网络和逐点霍夫投票网络;
步骤S5:网络训练;
利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像,按照步骤S1-步骤S3处理,以得到的归一化处理后的各目标物体图像块、对应的目标物体三维点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练,训练过程中,以旋转矩阵的绝对角度误差作为旋转估计网络损失,以平移向量的绝对角度误差作为平移向量估计网络损失;
步骤S6:将待进行目标位姿估计的目标物体图像按照步骤S1-步骤S3处理后,输入到利用步骤S5训练好的所述旋转估计网络和平移向量估计网络中,分别进行3维旋转矩阵估计和3维平移向量估计,实现目标位姿估计。
步骤S2中,目标分割为输入场景彩色图像,输出各已知物体的分割掩码,具体实施可采用现有最先进目标分割方法,本发明不包含此部分内容,但分割结果的精度会影响本发明最终物***姿估计的精度。
物***姿估计分解成两个独立任务进行,分别为3维旋转矩阵估计和3维平移向量估计;
旋转估计归一化:对裁剪出的各目标物体图像块O进行数据规范化处理,将彩色、深度图像各通道值分别从范围[0,255]、[near,far]归一化至[0,1],其中near、far分别为目标深度图像最近、最远值;
以图像块O的最小外接矩形为边界,保持纵横比,对其进行上采样或下采样,放缩至固定矩形尺寸,空白区域以0填充,得到图像块OR;
步骤S53:将图像块OR输入旋转估计网络,旋转估计网络利用ResNet34卷积神经网络获取卷积特征,然后将获得的卷积特征分别输入到空间聚合卷积神经网络和空间分布卷积神经网络,提取聚合特征和分布特征;利用特征拼接网络将聚合特征和分布特征拼接后,再利用多尺度池化网络对拼接后的特征进行多尺度池化操作,获得目标物体图像的特征向量FA;最后,利用多层感知机网络从目标物体图像的特征向量中回归出目标物体的3维旋转矩阵;
所述空间聚合卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征Fc:[H×W,H,W],并作为空间聚合卷积神经网络的输出数据;
所述空间分布卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征Fd:[H×W,H,W],并作为空间分布网络卷积神经网络的输出数据。
所述空间分布网络获得H×W个局部点与全局H×W个点的特征约束关系,依照特征空间位置逐通道提取对应点特征值,并按照特征图像二维位置进行排列整合,生成分布特征Fd:[H×W,H,W],所述特征图像中每个位置包含H×W个值,表示H×W个全局点与该位置的分布约束关系;
三维点云归一化处理:
首先,利用相机内参和小孔成像模型从各目标物体图像块O中获得某一目标物体三维点云V,V=(X,Y,Z,I);
其中:构成相机内参K,fx、fy为等效焦距,ui、vi分别为图像块O中像素i在原输入图像中的横纵坐标,I=(R,G,B)为彩色值,D(ui,vi)为图像块O中像素i深度值,cx、cy为图像坐标偏移,i=1,2,...,m,m表示目标物体图像块中的像素数量;
接着,计算三维点云V的三维重心G:对三维点云V进行归一化处理,彩色值I各通道从[0,255]归一化至[-1,1],三维点云的三维坐标首先移除重心,获得偏移坐标ΔS(ΔX,ΔY,ΔZ)=(X-Gx,Y-Gy,Z-Gz),然后对ΔS进行单位向量化norm(ΔX,ΔY,ΔZ),得到归一化向量结合彩色值得到归一化后的三维点云Vnorm:将目标物体点云Vnorm输入至一个平移向量估计网络,逐点生成各点云指向目标物体3维平移向量的单位向量W:
利用获得的单位向量W构造目标物体点云中任意点连接3维平移向量的直线方程集L,li∈L,i=1,2,...,m,其中l为三维空间直线方程:然后求解三维空间中距直线方程集L最近点q:(x,y,z)即为目标物体3维平移向量t。
所述平移向量估计网络是利用归一化处理后的目标物体三维点云输入至PointNet++网络,获得点云特征,再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量
网络参数训练时:
对旋转估计网络进行训练,是利用旋转估计归一化后的图像块作为旋转估计网络的输入数据,输出旋转矩阵四元数Q,对旋转矩阵四元数Q进行单位化,然后转成旋转矩阵以旋转矩阵与旋转真值之间的绝对角度误差LR作为旋转矩阵损失:E为单位矩阵,将LR反向传播,采用梯度下降方法对旋转估计网络进行训练,更新基于双向空间注意力的特征提取网络参数。
对平移向量估计网络训练是以图像块O的归一化后的三维点云为输入数据,以目标物体各表面点云指向3维平移向量的单位向量作为输出数据,以角度误差Lt作为平移向量损失:将Lt反向传播,采用梯度下降方法对平移向量估计网络进行参数训练,更新平移向量估计网络参数,其中,表示第i个像素的平移向量真值:m表示目标物体图像块中的像素数量。
一般设定一个最小值,当损失值小于该值时,即停止训练,达到最优效果,最小值的选择根据实际仿真实验的结果,会不断的调整;
3维旋转估计网络和3维平移向量估计网络相互独立,训练过程互不干扰,可以并行完成,分别预测目标物***姿R和t,得到目标物***姿P=|R|t|。
具体训练时,可以并行实施,独立计算两者损失并反向传播,然后更新网络权重,获得最佳网络性能。
基于上述方法,本发明实施例还提供一种基于注意力机制和霍夫投票的目标位姿估计***,其特征在于,包括:
图像采集模块:利用RGB-D相机获取包含多目标物体场景中的彩色图像与深度图像;
其中,RGB-D相机选用Azure Kinect DK相机;
目标分割模块:用于对彩色图像进行分割,获得各目标物体的类别和分割掩码;
目标提取模块:基于各物体分割掩码,对彩色图像与深度图像进行裁剪与拼接,提取各目标物体图像块;
归一化模块:对各目标物体图像块中的三维点云的坐标、彩色值以及深度值进行归一化处理,获得各目标物体在同一空间下的三维点云数据;
位姿估计网络构建模块:用于构建旋转估计网络以及平移向量估计网络;
所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络,所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络;
所述平移向量估计网络包含串联的PointNet++网络和逐点投票网络;
网络训练模块:利用深度学习工作站对位姿估计网络进行训练;
利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像,调用图像采集模块、目标分割模块、目标提取模块以及归一化模块进行处理,以得到的归一化处理后的各目标物体图像块、对应的物体点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练,训练过程中,以旋转矩阵的绝对角度误差作为旋转估计网络损失,以平移向量的绝对角度误差作为平移向量估计网络损失,且以梯度下降形式进行参数更新;
深度学习工作站,选用戴尔P5820x图形工作站
位姿估计模块:利用训练好的所述旋转估计网络和平移向量估计网络,对待进行目标位姿估计的目标物体图像块,分别进行3维旋转矩阵估计和3维平移向量估计,实现目标位姿估计。
应当理解,本发明各个实施例中的功能单元模块可以集中在一个处理单元中,也可以是各个单元模块单独物理存在,也可以是两个或两个以上的单元模块集成在一个单元模块中,可以采用硬件或软件的形式来实现。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于注意力机制和霍夫投票的目标位姿估计方法,其特征在于,包括如下几个步骤:
步骤S1:获取包含多目标物体场景下的彩色图像与深度图像;
步骤S2:通过目标分割方法从彩色图像中获得各目标物体的类别和分割掩码;
步骤S3:利用步骤S2中获取的各物体分割掩码,对彩色图像与深度图像进行裁剪与拼接,提取各目标物体图像块,并进行归一化处理;
步骤S4:构建旋转估计网络以及平移向量估计网络;
所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络,所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络;
所述平移向量估计网络包含串联的PointNet++网络和逐点霍夫投票网络;
步骤S5:网络训练;
利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像,按照步骤S1-步骤S3处理,以得到的归一化处理后的各目标物体图像块、对应的目标物体三维点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练,训练过程中,以旋转矩阵的绝对角度误差作为旋转估计网络损失,以平移向量的绝对角度误差作为平移向量估计网络损失;
步骤S6:将待进行目标位姿估计的目标物体图像按照步骤S1-步骤S3处理后,输入到利用步骤S5训练好的所述旋转估计网络和平移向量估计网络中,分别进行3维旋转矩阵估计和3维平移向量估计,实现目标位姿估计。
2.根据权利要求1所述的方法,其特征在于,将各目标物体图像块进行归一化处理的具体过程如下:
旋转估计归一化:将各目标物体图像块O中彩色通道值、深度通道值分别从[0,255]、[near,far]范围归一化至[-1,1];再以各目标物体图像块O的最小外接矩形为边界,保持设定的纵横比,对各目标物体图像块O进行上采样或下采样,放缩至固定矩形尺寸,空白区域以0填充,获得宽、高尺寸统一的各目标物体图像块OR;
三维点云归一化:从各目标物体图像块O中获取各目标物体三维点云,将三维点云彩色值从[0,255]归一化至[-1,1],并将三维点云的三维坐标进行重心移除,获得偏移坐标,并对偏移坐标进行单位向量化,获得归一化坐标,从而获得各目标物体在同一空间下的三维点云数据;
其中,near、far分别为目标物体深度图像的最近、最远值。
3.根据权利要求1所述的方法,其特征在于,所述空间聚合卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征Fc:[H×W,H,W],并作为空间聚合卷积神经网络的输出数据;
所述空间分布卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征Fd:[H×W,H,W],并作为空间分布网络卷积神经网络的输出数据。
4.根据权利要求1所述的方法,其特征在于,所述平移向量估计网络是利用归一化处理后的目标物体三维点云输入至PointNet++网络,获得点云特征,再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。
5.根据权利要求4所述的方法,其特征在于,利用各目标物体的三维点云坐标和单位向量建立各目标物体3维平移向量所在直线方程集,通过求解三维空间距直线集的最近点,得到各目标物体3维平移向量t。
6.根据权利要求1所述的方法,其特征在于,三维点云归一化处理具体是指:
首先,利用相机内参和小孔成像模型从各目标物体图像块O中获取某一目标物体三维点云V,V=(X,Y,Z,I);
其中: 构成相机内参K,fx、fy为等效焦距,ui、vi分别为图像块O中像素i在原输入图像中的横纵坐标,I=(r,g,b)为彩色值,D(ui,vi)为图像块O中像素i深度值,cx、cy为图像坐标偏移,i=1,2,...,m,m表示目标物体图像块中的像素数量;
9.一种基于注意力机制和霍夫投票的目标位姿估计***,其特征在于,包括:
图像采集模块:利用RGB-D相机获取包含多目标物体场景中的彩色图像与深度图像;
目标分割模块:用于对彩色图像进行分割,获得各目标物体的类别和分割掩码;
目标提取模块:基于各物体分割掩码,对彩色图像与深度图像进行裁剪与拼接,提取各目标物体图像块;
归一化模块:对各目标物体图像块中的三维点云的坐标、彩色值以及深度值进行归一化处理,获得各目标物体在同一空间下的三维点云数据;
位姿估计网络构建模块:用于构建旋转估计网络以及平移向量估计网络;
所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络,所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络;
所述平移向量估计网络包含串联的PointNet++网络和逐点投票网络;
网络训练模块:利用深度学习工作站对位姿估计网络进行训练;
利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像,调用图像采集模块、目标分割模块、目标提取模块以及归一化模块进行处理,以得到的归一化处理后的各目标物体图像块、对应的物体点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练,训练过程中,以旋转矩阵的绝对角度误差作为旋转估计网络损失,以平移向量的绝对角度误差作为平移向量估计网络损失,且以梯度下降形式进行参数更新;
位姿估计模块:利用训练好的所述旋转估计网络和平移向量估计网络,对待进行目标位姿估计的目标物体图像块,分别进行3维旋转矩阵估计和3维平移向量估计,实现目标位姿估计。
10.根据权利要求9所述的***,其特征在于,所述空间聚合卷积神经网络采用卷积神经网络架构,利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征Fc:[H×W,H,W],并作为空间聚合卷积神经网络的输出数据;
所述空间分布卷积神经网络采用卷积神经网络架构,利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据,从卷积神经网络得到的上下文分布特征Fd-c:[(H×W)×(H×W),H,W]中,提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征Fd:[H×W,H,W],并作为空间分布网络卷积神经网络的输出数据;
所述平移向量估计网络包括PointNet++网络和逐点霍夫投票网络,所述逐点霍夫投票网络采用多层感知机网络架构;
平移向量估计网络利用归一化处理后的目标物体三维点云输入至PointNet++网络,获得点云特征,再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110211748.6A CN113065546B (zh) | 2021-02-25 | 2021-02-25 | 一种基于注意力机制和霍夫投票的目标位姿估计方法及*** |
PCT/CN2021/084690 WO2022178952A1 (zh) | 2021-02-25 | 2021-03-31 | 一种基于注意力机制和霍夫投票的目标位姿估计方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110211748.6A CN113065546B (zh) | 2021-02-25 | 2021-02-25 | 一种基于注意力机制和霍夫投票的目标位姿估计方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065546A CN113065546A (zh) | 2021-07-02 |
CN113065546B true CN113065546B (zh) | 2022-08-12 |
Family
ID=76559164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110211748.6A Active CN113065546B (zh) | 2021-02-25 | 2021-02-25 | 一种基于注意力机制和霍夫投票的目标位姿估计方法及*** |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113065546B (zh) |
WO (1) | WO2022178952A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780240B (zh) * | 2021-09-29 | 2023-12-26 | 上海交通大学 | 基于神经网络及旋转特征增强的物***姿估计方法 |
CN113989318B (zh) * | 2021-10-20 | 2023-04-07 | 电子科技大学 | 基于深度学习的单目视觉里程计位姿优化与误差修正方法 |
CN114170312A (zh) * | 2021-12-07 | 2022-03-11 | 南方电网电力科技股份有限公司 | 一种基于特征融合的目标物***姿估计方法及装置 |
TW202336689A (zh) * | 2022-03-11 | 2023-09-16 | 緯創資通股份有限公司 | 虛擬視窗配置裝置、虛擬視窗配置方法及虛擬視窗配置系統 |
CN114820932B (zh) * | 2022-04-25 | 2024-05-03 | 电子科技大学 | 一种基于图神经网络和关系优化的全景三维场景理解方法 |
CN115082572B (zh) * | 2022-07-22 | 2023-11-03 | 南京慧尔视智能科技有限公司 | 一种雷达和相机联合自动标定方法和*** |
CN115311274B (zh) * | 2022-10-11 | 2022-12-23 | 四川路桥华东建设有限责任公司 | 一种基于空间变换自注意力模块的焊缝检测方法及*** |
CN115761116B (zh) * | 2022-11-03 | 2023-08-18 | 云南大学 | 一种基于单目相机的透视投影下三维人脸重建方法 |
CN115578461B (zh) * | 2022-11-14 | 2023-03-10 | 之江实验室 | 基于双向rgb-d特征融合的物体姿态估计方法及装置 |
CN117788577A (zh) * | 2023-12-21 | 2024-03-29 | 西南交通大学 | 一种基于深度学习的螺栓6d姿态估计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209116A (ja) * | 2010-03-30 | 2011-10-20 | Dainippon Screen Mfg Co Ltd | 3次元位置・姿勢認識装置およびそれを用いたシステム、方法、プログラム |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN111723721A (zh) * | 2020-06-15 | 2020-09-29 | 中国传媒大学 | 基于rgb-d的三维目标检测方法、***及装置 |
CN111784770A (zh) * | 2020-06-28 | 2020-10-16 | 河北工业大学 | 基于shot和icp算法的无序抓取中的三维姿态估计方法 |
CN111862201A (zh) * | 2020-07-17 | 2020-10-30 | 北京航空航天大学 | 一种基于深度学习的空间非合作目标相对位姿估计方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2496834B (en) * | 2011-08-23 | 2015-07-22 | Toshiba Res Europ Ltd | Object location method and system |
GB201215944D0 (en) * | 2012-09-06 | 2012-10-24 | Univ Manchester | Image processing apparatus and method for fittng a deformable shape model to an image using random forests |
US20200301015A1 (en) * | 2019-03-21 | 2020-09-24 | Foresight Ai Inc. | Systems and methods for localization |
CN110458128A (zh) * | 2019-08-16 | 2019-11-15 | 广东工业大学 | 一种姿态特征获取方法、装置、设备及存储介质 |
CN111179324B (zh) * | 2019-12-30 | 2023-05-05 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111783986B (zh) * | 2020-07-02 | 2024-06-14 | 清华大学 | 网络训练方法及装置、姿态预测方法及装置 |
-
2021
- 2021-02-25 CN CN202110211748.6A patent/CN113065546B/zh active Active
- 2021-03-31 WO PCT/CN2021/084690 patent/WO2022178952A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209116A (ja) * | 2010-03-30 | 2011-10-20 | Dainippon Screen Mfg Co Ltd | 3次元位置・姿勢認識装置およびそれを用いたシステム、方法、プログラム |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN111723721A (zh) * | 2020-06-15 | 2020-09-29 | 中国传媒大学 | 基于rgb-d的三维目标检测方法、***及装置 |
CN111784770A (zh) * | 2020-06-28 | 2020-10-16 | 河北工业大学 | 基于shot和icp算法的无序抓取中的三维姿态估计方法 |
CN111862201A (zh) * | 2020-07-17 | 2020-10-30 | 北京航空航天大学 | 一种基于深度学习的空间非合作目标相对位姿估计方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的机器人视觉三维感知与识别方法研究;冯明涛;《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》;20210115(第1期);第I138-273页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022178952A1 (zh) | 2022-09-01 |
CN113065546A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065546B (zh) | 一种基于注意力机制和霍夫投票的目标位姿估计方法及*** | |
CN111798475B (zh) | 一种基于点云深度学习的室内环境3d语义地图构建方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN105069423B (zh) | 一种人体姿态检测方法及装置 | |
US11182644B2 (en) | Method and apparatus for pose planar constraining on the basis of planar feature extraction | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及*** | |
CN111998862B (zh) | 一种基于bnn的稠密双目slam方法 | |
CN112465903A (zh) | 一种基于深度学习点云匹配的6dof物体姿态估计方法 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN109784297A (zh) | 一种基于深度学习的三维目标识别与最优抓取方法 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN114494594B (zh) | 基于深度学习的航天员操作设备状态识别方法 | |
CN115578460A (zh) | 基于多模态特征提取与稠密预测的机器人抓取方法与*** | |
CN113065506B (zh) | 一种人体姿态识别方法及*** | |
CN117218192A (zh) | 一种基于深度学习与合成数据的弱纹理物***姿估计方法 | |
US20220198707A1 (en) | Method and apparatus with object pose estimation | |
CN115775214A (zh) | 一种基于多阶段分形组合的点云补全方法及*** | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN114913289A (zh) | 一种生产车间三维动态不确定性语义slam方法 | |
Zhang et al. | Object detection and grabbing based on machine vision for service robot | |
Wu et al. | Object Pose Estimation with Point Cloud Data for Robot Grasping | |
CN114140495A (zh) | 基于多尺度Transformer的单目标跟踪方法 | |
Lin et al. | 6D object pose estimation with pairwise compatible geometric features | |
CN110910450A (zh) | 一种基于混合特征感知神经网络进行3d目标检测的方法 | |
CN112906432A (zh) | 一种应用于人脸关键点定位任务的检错纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |