CN117095033B - 一种基于图像与几何信息引导的多模态点云配准方法 - Google Patents
一种基于图像与几何信息引导的多模态点云配准方法 Download PDFInfo
- Publication number
- CN117095033B CN117095033B CN202310921353.4A CN202310921353A CN117095033B CN 117095033 B CN117095033 B CN 117095033B CN 202310921353 A CN202310921353 A CN 202310921353A CN 117095033 B CN117095033 B CN 117095033B
- Authority
- CN
- China
- Prior art keywords
- point
- super
- point cloud
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 230000009466 transformation Effects 0.000 claims abstract description 26
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 2
- 230000004069 differentiation Effects 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001334134 Rugopharynx epsilon Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术,特别涉及一种基于图像与几何信息引导的多模态点云配准方法,包括获取点云中超点的第四超点特征、源点云中超点与锚点之间的几何相关性特征、目标点云中超点的第四超点特征、目标点云中超点与锚点之间的几何相关性特征,并基于交叉注意力进行融合得到第五超点特征;基于第五超点特征计算源点云和目标云中超点的相似性筛选超点对,对其第一超点特征进行上采样解码得到其原始点特征;基于Sinkhorn算法得到原始点对关系集合,根据原始点对关系集合进行变换矩阵估计并从中选择最优变换矩阵;本发明不仅能够充分融合图像纹理信息和点云结构信息,还减少了无关图像信息的噪声引入,得到了具有区分度的多模态超点特征。
Description
技术领域
本发明涉及计算机视觉技术,应用于三维重建、自动驾驶、同时定位与建图、机器人位姿估计等技术领域,特别涉及一种基于图像与几何信息引导的多模态点云配准方法。
背景技术
点云配准是三维视觉任务中的上游任务,它旨在求解一个变换矩阵,将同一个场景中两个不同视角的点云对齐到同一个坐标系下,其被广泛应用于三维重建、自动驾驶、同时定位与建图、机器人位姿估计等领域。
当前点云配准方法大多数是基于对应关系的点云配准,它主要分为以下四个流程,首先对输入的两帧点云分别进行特征的提取,接下来在特征空间中选取出对应关系,然后进行外点的过滤,最后根据对应关系使用一个鲁棒性较强的位姿估计器求解变换矩阵。近期基于对应关系的点云配准方法一般使用一种由粗到精的配准方法,它们首先寻找到超点级别的对应关系,然后再进行点级别的精配准。
点云配准方法按照模态分类,可分为单模态点云配准方法和多模态点云配准方法。
(1)单模态点云配准方法
单模态点云配准方法指的是仅使用点云模态进行配准。目前大部分方法是单模态点云配准方法。点云配准的成功离不开点云几何特征的提取,由于点云的无序性造成了特征提取的困难,人们一开始在每个点上单独使用一个共享的多层感知机网络进行特征提取,后来使用分层次的网络结构,使得提取到的特征能够适应不同的点云密度。受图像卷积神经网络的启发,有学者提出了一种基于可变核点卷积的点云特征提取方法,该方法能够适应不同形状的物体,更加重视点云的几何结构特点。在点云配准任务中,人们还比较关注两帧点云之间的几何一致性,有人在使用核点卷积进行下采样提取超点后,通过注入超点之间的距离和角度一致信息来进行特征增强,该方法显著提升了算法的鲁棒性。
当前单模态点云配准方法的性能已经取得了不错的效果,但是由于这些方法只利用点云单一模态,提取到的特征仅具有几何信息,缺少纹理信息,这使得其在低重叠率场景中容易受到重复几何区域和弱几何区域的限制,造成最终配准失败。另外,当前方法在进行几何一致性嵌入时,往往考虑的是每一个超点之间的关系,混入了模糊的几何信息,这使得点云特征的区分度降低,不利于对应关系的正确选取。
(2)多模态点云配准方法
近年来,随着深度学习的兴起,通过使用卷积神经网络等技术对图像进行特征提取,使得图像分类和目标检测等任务取得了重大突破,因此最近两年在点云配准任务中也涌现出了一些基于图像和点云的多模态点云配准算法。一开始有人尝试了隐式的多模态特征融合方法,它先分别对点云及其对应的图像进行编码特征提取,然后使用注意力机制将点云和图像的特征进行一个全局的融合,达到增强点云特征的目的,最后使用解码器得到同时具有纹理信息和结构信息的点云特征。该方法为多模态信息的融合提供了参考,但是由于采用了隐式的图像特征融合方法,使得点云的特征区别度降低,导致其无法在低重叠率点云配准任务上取得一个较好的性能。后来,有人提出了在训练阶段仅使用一张图像,该图像能够同时覆盖输入两帧点云的部分重叠区域,这个方法有利于对应关系的寻找,确保了后期能够求解出正确的变换矩阵。除此之外,还有人利用当前比较成熟的图像匹配技术,先从图像中提取出对应像素,然后使用内外参矩阵将其投影到点云上,将点云的特征初始化为二维重叠区域内的像素特征,然后再使用常规的核卷积方法进行点云的特征提取。
当前多模态点云配准方法还处在探索阶段,现有的方法在利用图像信息进行点云特征的增强时,或融入了模糊噪声使得点云特征的区分度降低,或没用充分地融合图像的特征,这使得当前多模态方法在配准任务中无法表现出卓越的性能。
发明内容
为了解决解决弱几何区域和重复几何区域对点云配准任务的限制问题,本发明提出一种基于图像与几何信息引导的多模态点云配准方法,具体包括以下步骤:
将源点云和目标点云输入一个作为编码器的形变卷积神经网络一边进行下采样、一边进行点云特征提取,得到第一超点特征;通过残差网络获取点云对应图像的像素特征;
对第一超点特征进行升维,得到第二超点特征;将一个超点在下采样过程中被过滤掉的点对应的像素特征作为该超点的像素特征,将第二超点特征与其对应的像素特征基于注意力机制和多层感知机进行融合,得到超点的纹理特征;将超点的纹理特征与第一超点特征进行拼接得到第三超点特征;
计算一个点云内两个超点之间的距离特征,并基于注意力机制将两个超点之间的距离特征与第三超点特征进行融合,得到第四超点特征;
基于非极大值抑制的方法从源点云和目标点云中选出一个锚点集合,获取锚点与超点之间的距离特征和角度相关性,通过融合锚点与超点之间的距离特征和角度相关性得到超点与锚点之间的几何相关性特征;
根据源点云中超点的第四超点特征、源点云中超点与锚点之间的几何相关性特征、目标点云中超点的第四超点特征、目标点云中超点与锚点之间的几何相关性特征基于交叉注意力进行融合得到第五超点特征;
计算源点云中超点对应的第五超点特征与目标云中超点对应的第五超点特征之间的相似性,并筛选出相似性最高K对点作为超点对集合;
对超点对集合中的超点的第一超点特征进行上采样解码,得到原始点特征;在每个超点的邻域内计算原始点相似度,并基于Sinkhorn算法得到原始点对关系集合,根据原始点对关系集合进行变换矩阵估计;
每个超点对应关系都能得到一个源点云和目标点云的变换矩阵,得到超点对集合估计出的多个变换矩阵后,从中选取出一个最优的变换矩阵。
相比较现有的多模态点云配准方法,本发明设计的一种基于局部纹理信息的多模态特征融合模块不仅能够充分融合图像纹理信息和点云结构信息,还减少了无关图像信息的噪声引入,得到了具有区分度的多模态超点特征。除此之外,本发明设计了一种选择相关性融合模块,它选择出可靠的超点当做锚点,然后再进行相关性融合,经过迭代更新锚点后,锚点落在重叠区域中,这使得在增强超点特征时引入了较少的模糊噪声信息,有助于两帧点云之间的超点正确匹配,提高了点云配准的正确率。
附图说明
图1为本发明一种基于图像与几何信息引导的多模态点云配准方法中模型结构示意图;
图2为本发明实施例中基于自注意力机制的距离嵌入示意图;
图3为本发明实施例中单个超点与锚点之间的相关性信息提取示意图;
图4为本发明实施例中基于交叉注意力机制的相关性融合示意图;
图5为本发明一实施例的配准结果的可视化示意图;
图6为本发明一种基于图像与几何信息引导的多模态点云配准方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于图像与几何信息引导的多模态点云配准方法,如图6,具体包括以下步骤:
将源点云和目标点云输入一个作为编码器的形变卷积神经网络一边进行下采样、一边进行点云特征提取,得到第一超点特征;通过残差网络获取点云对应图像的像素特征;
对第一超点特征进行升维,得到第二超点特征;将一个超点在下采样过程中被过滤掉的点对应的像素特征作为该超点的像素特征,将第二超点特征与其对应的像素特征基于注意力机制和多层感知机进行融合,得到超点的纹理特征;将超点的纹理特征与第一超点特征进行拼接得到第三超点特征;
计算一个点云内两个超点之间的距离特征,并基于注意力机制将两个超点之间的距离特征与第三超点特征进行融合,得到第四超点特征;
基于非极大值抑制的方法从源点云和目标点云中选出一个锚点集合,获取锚点与超点之间的距离特征和角度相关性,通过融合锚点与超点之间的距离特征和角度相关性得到超点与锚点之间的几何相关性特征;
根据源点云中超点的第四超点特征、源点云中超点与锚点之间的几何相关性特征、目标点云中超点的第四超点特征、目标点云中超点与锚点之间的几何相关性特征基于交叉注意力进行融合得到第五超点特征;
计算源点云中超点对应的第五超点特征与目标云中超点对应的第五超点特征之间的相似性,并筛选出相似性最高K对点作为超点对集合;
对超点对集合中的超点的第一超点特征进行上采样解码,得到原始点特征;在每个超点的邻域内计算原始点相似度,并基于Sinkhorn算法得到原始点对关系集合,根据原始点对关系集合进行变换矩阵估计;
每个超点对应关系都能得到一个源点云和目标点云的变换矩阵,得到超点对集合估计出的多个变换矩阵后,从中选取出一个最优的变换矩阵。
在本实施例中,给定源点云和目标点云以及两个点云各自对应的图片/>和其中/>和/>之间具有一定重叠区域,两个点云是同一个场景中来自不同视角的两帧点云。目标是求解出一个旋转矩阵R∈SO(3)和一个平移向量/>其中SO(3)为三维旋转群,使源点云在其作用下能够与目标点云拼接在一起。R和t可由公式(1)计算得到:
其中,是源点云和目标点云中的点对应关系集合,/>是集合中的一对对应点。
在本实施例中,提出一种基于图像与几何信息引导的多模态点云配准方法,如图1,该方法主要包括特征提取、多模态信息融合、选择相关性融合、关系匹配与位姿估计四个步骤组成。本实施例分别从四个步骤对一种基于图像与几何信息引导的多模态点云配准方法进行说明。
(一)特征提取
进行特征提取包括提取点云中的第一超点特征和点云对应图像中的像素特征,具体包括:
将源点云(/>为实数集合)和目标点云/>分别输入两个共享参数的形变卷积神经网络,在形变卷积神经网络中一边进行下采样,一边进行点云特征提取,使用/>和/>来表示经过下采样后得到的超点,并且用和/>来分别表示两帧点云中的第一超点特征,其中,|·|表示求一个集合中元素的个数;/>表示对源点云进行下采样后得到的超点集合/>中第i个超点;/>表示对目标点云进行下采样后得到的超点集合/>中第j个超点;C表示特征的维度。
使用残差网络从点云对应图像中提取图像的特征,源点云和目标点云所对应的图像特征分别用和/>来表示,其中,W表示图像的宽;H表示图像的高。
(二)多模态信息融合
在点云配准任务中,由于单模态点云仅包含几何信息(即第一超点特征),不能很好地解决一些弱几何区域的挑战和重复结构区域的干扰,而点云所对应的图像所包含的纹理信息可以增强点云特征,使其既具有几何信息又具有纹理信息,从而增加超点与超点之间的区分度。现有方法在融合点云和图像信息时,往往会导致不必要的纹理噪声信息引入,使得点云特征变得模糊,因此本发明设计了一种基于局部纹理信息的多模态特征融合模块,在本实施例中以源点云为例,讲解该模块是如何进行工作的。
为了能够精确地融合多模态信息,首先为点云中的每一个点都找到其在图像中所对应像素的位置。具体而言,对于一个点云来说,其是由连续的多帧颜色图和深度图通过三维重建的方式生成的,考虑到时间复杂度,本实施例只使用第一帧图片。接下来根据外参矩阵,将点云中的点变换到拍摄第一帧图片时的相机坐标系下,其实现可用公式(2)表示:
其中,Rext和text分别是点云相对于相机位姿的旋转矩阵和平移向量。
由于相机拍摄操作是一个三维到二维的变换操作,图像的尺度与真实世界的尺度存在一定的差异,所以在得到相机坐标系下的点之后,还需要使用相机标定的内参矩阵将其变换到图像坐标系下,具体实现可用公式(3)表示:
其中Mint∈R3×3是相机的内参矩阵。
在得到了图像坐标系下的点云之后,为了能够使中的每一个点找到其对应像素的位置,还要需要进行齐次化的操作,从而得到第i个点在图像中的像素位置(wi,hi),此操作可由公式(4)来表示:
(wi,hi)=(xi/zi,yi/zi) (4)
投影操作给每一个点都找到了其所对应的像素位置,这为进行基于局部纹理信息的多模态特征融合创造了基本条件。
由于使用核卷积方法进行特征提取是基于点云的下采样操作实现的,所以每个超点的邻域内都存在着个被过滤掉的点,这/>个点也就对应着图片中的/>个像素,因此对于每一个超点来说,其邻域内存在着/>个像素。
本实施例对第一超点特征进行升维(其目的是与后续通过注意力机制进行特征融合时维度对齐),升维后的表示为点云中的超点的第二超点特征特征,用表示为超点所对应的像素特征,其中N表示超点的个数,/>表示每个超点旁边有/>个像素。
本实施例使用注意力机制将单个超点特征与其邻域内的局部纹理信息进行融合。具体来说,使用可学习的矩阵Wq(其维度为为注意力机制中学习矩阵的维度)将第二超点特征/>映射成/>使用可学习的Wk、Wv将源点云中超点/>的图像特征/>映射为/>和/>
接下来计算权重矩阵这个权重矩阵表示超点邻域内每一个像素特征与这个超点特征之间的关系权值,超点的纹理特征/>可以用公式(5)来获得:
F=MLP(W*VA) (5)
其中,MLP是多层感知机。
最终将超点的纹理特征F和超点的几何特征进行拼接得到具有多模态信息的超点特征/>将该特征作为第三超点特征,该操作可以用公式(6)来表示:
其中,cat(·)表示拼接操作;表示源点云中第i个超点的第j维几何特征;Fij表示源点云中第i个超点的第j维纹理特征。
相比较现有的多模态融合方法,我们的方法能在局部区域内进行几何特征和纹理特征的融合,在充分融合图像的纹理信息特征的同时做到了不引入过多的噪声,该方法的目标恰恰符合点云配准这一任务对于其点特征的要求,充分保证了点与点之间的特征区分度。
(三)选择相关性融合
点云的内部结构包含了丰富的上下文信息,有利于超点特征的描述能力。在这里,本实施例采用自我注意机制来帮助感知上下文信息,并将其内部结构嵌入到超点特征中。如图2,本实施例以源点云为例,讲解进行特征增强的过程。
给定源点云中的一个超点它与另一个超点/>之间的距离特征/>可以由公式(7)来获得:
其中,表示计算两个超点之间第三超点特征之间的欧式距离的平方,f(·)是正弦位置编码函数,它能够将一个低维特征映射成高维特征,σd是距离敏感系数,当/>和/>之间的距离超过这个值时,/>的值为0。本领域技术人员可以采用其他的距离计算方式计算第三超点特征之间的距离,并采用的其他线性或者非线性的映射方式将两个超点之间的距离特征映射到高维空间中,本实施例中仅提上述一种可选实施方式。
在拥有源点云内部的距离特征之后,使用注意力机制将第三超点特征/>和距离特征/>进行融合。具体而言,分别使用可学习的矩阵Wq,Wk,Wv将/>映射成使用可学习的矩阵Wg将/>映射成/>然后使用公式(8)计算注意力分数Score(i,j):
接下来使用公式(9)得到融合了距离变换不变性的超点特征(该特征作为第四超点特征):
其中,Score为所有超点之间的注意力分数构成的矩阵,即矩阵Score中第i行、第j列的元素为Score(i,j)。
在点云配准任务中,寻找两帧点云之间的变换不变特征是至关重要的。现有的一些方法在增强超点特征的时候,选择将超点与超点之间的距离和角度信息进行嵌入,因为这些信息不会随着刚性变换而改变。然而,它们往往嵌入的是当前超点和每一个其他超点之间的特征关系,这样做会导致非重叠区域的冗余特征混入,使得点与点之间的特征区分度降低。因此本发明设计了一种选择相关性融合模块来解决现有方法存在的问题。
接下来本实施例使用非极大抑制(NMS)方法进行锚点的选取。该方法考虑到了点云空间中点之间的稠密性,充分保证了选取出来的锚点之间具有一定的稀疏性,提升了后期相关性融合的性能。其算法流程如下:
(1)输入源点云和目标点云融合了多模态信息后的超点特征(即源点云中超点的第三超点特征)和/>(即目标点云中超点的第三超点特征),过滤半径rnms,锚点对个数K;初始化锚点集合/>
(2)从源点云和目标点云的超点特征空间中中选取出相似度(可以采用两个点的距离来计算两个点之间的相似度,距离越近相似度越高,本实施例中选择连个特征之间的欧式距离作为相似度的度量且两个超点特征向量之间的欧氏距离越近,相似度越大)最大的超点点对将放入/>中,然后在源点云中过滤/>点旁边rnms半径内的所有超点,在目标点云中过滤/>点旁边rnms半径内的所有超点。
(3)重复(2),直至输出/>
在得到了锚点集合之后,将锚点与超点进行相关性特征融合,使用锚点与超点之间的距离角度关系来增强超点的特征,使其更加具有区分度。
源点云中的锚点使用来表示,对于源点云中的一个超点/>它与第i个锚点之间的距离ρi可以用公式(10)求得:
如图3,本实施例中超点与锚点的几何相关性特征包括两个部分,一部分是超点和锚点之间的距离特征,另一部分是源点云集合与锚点集合之间的角度相关性特征,图3中以包括三个锚点的情况为例,获取每个锚点与超点之间的距离和一个超点与两个锚点之间形成的夹角分别进行映射得到超点和锚点之间的距离特征和源点云集合与锚点集合之间的角度相关性特征。
然后类似于之前的方法,使用正弦位置函数将距离映射到一个高维空间,得到超点和锚点之间的距离特征其过程可用公式(11)来表示:
其中,K是锚点的个数,Wd∈RC×C是用来投影距离特征的可学习矩阵。
在几何相关性特征中,除了点之间的距离相关性,还要考虑点与点之间的角度相关性,因此接下来提取超点和锚点之间的角度相关性特征。
对于源点云中的一个超点首先将它固定当做顶点,然后使用公式(12)来计算它与另外两个锚点之间的角度:
其中,θk表示第k对锚点与超点之间的角度,/>表示第l个锚点,/>表示第s个锚点,该公式首先构造出了两个向量,然后再通过deg(·)计算两个向量之间的角度。
在得到了一个超点和一对锚点之间的角度之后,使用正弦位置函数将其映射到一个高维空间,使用公式(13)来获得源点云集合与锚点集合之间的角度相关性特征
其中,σθ是角度敏感系数,是用来投影角度特征的可学习矩阵,/>代表了锚点两个一组的的组数,即K个锚点2个一组的组合数目。
在获得了超点与锚点之间的距离相关性特征和角度相关性特征/>之后,使用公式(14)得到超点与锚点的几何相关性特征/>
目标点云中超点与锚点之间相关性特征的获得方式与源点云相同。
如图4,计算完相关信息特征之后,使用交叉注意力机制来进行两帧点云之间信息交流。具体而言,使用公式(15)映射源点云的超点特征、源点云中超点-锚点相关性特征、目标点云的超点特征、目标点云中超点-锚点相关性特征:
接下来再使用公式(16)计算源点云中的第n个超点与目标点云中第m个超点之间的注意力分数
最后使用公式(17)来计算源点云中融合了相关性特征并与目标点云进行信息交流之后的超点特征(即源点云中超点的第五超点特征):
需要注意的是,以上基于锚点的相关性融合模块是迭代的。在超点融合了相关性特征后,将会从超点中重新选择出锚点,然后计算超点和锚点之间的相关性特征,最后使用交叉注意力机制将相关性特征融合进超点中,以实现增强超点特征的目的,直至迭代次数达到上限。
(四)关系匹配与位姿估计
在得到了源点云和目标点云的第五超点特征之后,对其进行归一化得到和并且计算出超点相似度矩阵/>这样寻找精确的超点对应关系问题就转化成了一个最优传输问题,根据超点相似度矩阵从源点云和目标点云中选取出特征相似度最高的一些对应点对集合/>其定义如(18)所示:
其中,表示选择相似度最大的K对点。
在得到超点级别的对应关系后,我们对使用可变核卷积下采样编码得到的第一超点特征进行上采样解码。为了得到点级别的匹配,基于解码后的点特征,在每个超点邻域内进行计算点相似度矩阵S,然后使用Sinkhorn算法得到第i对超点对应关系内的点对应关系集合其定义如(19)所示:
为了能够实现准确、高效的变换矩阵估计,本实施例采用一种局部-全局的变换矩阵估计方法。首先进行高置信度区域的变换矩阵估计,也就是说,在每一个超点对应关系的区域内,根据其点对应关系集合进行变换矩阵的估计,第i对超点对应关系估计出来的旋转矩阵Ri和平移向量ti可用公式(20)计算所得:
其中,Ri表示通过超点对集合中第i对超点区域估计得到的旋转矩阵;ti表示通过第二点对集合中第i对超点估计得到的平移向量;表示该超点对区域内的原始点对集合;wj表示第j个原始点对的权重;(pxj,qyj)表示第j个原始点对中两个点的坐标;R′和t′分别表示根据/>估计出来的粗糙旋转矩阵和平移向量。
从估计出的多个旋转矩阵和平移向量中选取出最优的旋转矩阵和平移向量,表示为:
其中,R表示最优旋转矩阵;t表示最优平移向量;PC表示所有原始点对集合的交集;(pk,qk)表示第k个原始点对中两个点的坐标;τa表示距离误差阈值;[·]为艾佛森括号,若满足括号中的条件则其值为1,否则其值为0。
在本实施例中,需要对特征提取、多模态信息融合、选择相关性融合、关系匹配与位姿估计四个步骤中的可训练矩阵进行训练。训练的损失函数由两部分组成,一部分是超点匹配损失函数/>另一部分是/>
超点匹配损失用来监督超点之间的正确匹配。首先,如果源点云中的一个超点和目标点云中的一个超点至少有10%的重叠,本实施例则将这对超点当做正样本,否则将这对超点对应关系当做负样本,其次从源点云的所有超点中选取出那些至少有一个正样本的超点,形成集合对于每个属于该集合的超点/>它与目标点云中的正样本对构成集合与目标点云中的负样本对构成集合/>最终源点云中的超点匹配损失可由公式(22)计算得到:
其中,是源点云超点特征与目标点云超点特征在特征空间中的欧几里得距离,/>代表的是/>和/>之间的重叠率,超参Δp和Δn分别设置为0.1和1.4,正样本比例/>负样本比例/>目标点云的超点匹配损失函数/>与源点云中的计算方式相同,最终总的超点匹配损失函数由公式(23)计算得到:
点匹配损失是由负对数似然函数进行计算得到的,它用来监督由每个超点区域内的点对应关系计算得到的变换矩阵。在训练阶段,选择出Ng对真实的超点对应关系,并且计算出第i对超点区域内的真实点对应关系集合然后将未匹配正确的点对应关系按照源点云和目标点云分成两个集合/>和/>最后第i对超点区域内的点匹配损失函数可由公式(24)计算得到:
其中,Si(x,y)代表超点区域内第x个和第y个原始点之间的相似度分数,与相似度矩阵的计算公式相同,Si(x,y)根据两个原始点的特征计算得到。
最终所有超点对应关系中的点匹配损失函数由公式(25)定义得到:
如果没有特别进行说明,本发明中的两个特征之间的相似度均采用两个特征向量之间的欧式距离进行度量,即欧式距离越小,相似度越大。本领域技术人员也可以采用现有技术中其他的度量方式来度量两个特征向量之间的相似度。
图5给出本发明与现有技术的对比,其中图5中第一列(a)表示输入,本实施例将重叠率为42.8%、43.5%、29.6%、12.5%、22.7%、14.2%、27.2%的个点云作为输入,第二列(b)给出对应的真实位姿,第三列(c)给出通过现有的点云匹配得到的位姿,第四列(d)给出通过通过本发明得到的位姿,通过对比可以看出,与现有技术的匹配结果相比,本发明的匹配得到的位姿在各个重叠率下均更接近真实位姿。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,具体包括以下步骤:
将源点云和目标点云输入一个作为编码器的形变卷积神经网络一边进行下采样、一边进行点云特征提取,得到第一超点特征;通过残差网络获取点云对应图像的像素特征;
对第一超点特征进行升维,得到第二超点特征;将一个超点在下采样过程中被过滤掉的点对应的像素特征作为该超点的像素特征,将第二超点特征与其对应的像素特征基于注意力机制和多层感知机进行融合,得到超点的纹理特征;将超点的纹理特征与第一超点特征进行拼接得到第三超点特征;
计算一个点云内两个超点之间的距离特征,并基于注意力机制将两个超点之间的距离特征与第三超点特征进行融合,得到第四超点特征;
基于非极大值抑制的方法从源点云和目标点云中选出一个锚点集合,获取锚点与超点之间的距离特征和角度相关性,通过融合锚点与超点之间的距离特征和角度相关性得到超点与锚点之间的几何相关性特征,即将锚点与超点之间的距离特征与角度相关性相加作为超点与锚点之间的几何相关性特征;
根据源点云中超点的第四超点特征、源点云中超点与锚点之间的几何相关性特征、目标点云中超点的第四超点特征、目标点云中超点与锚点之间的几何相关性特征基于交叉注意力进行融合得到第五超点特征;
计算源点云中超点对应的第五超点特征与目标云中超点对应的第五超点特征之间的相似性,并筛选出相似性最高K对点作为超点对集合;
对超点对集合中的超点的第一超点特征进行上采样解码,得到原始点特征;在每个超点的邻域内计算原始点相似度,并基于Sinkhorn算法得到原始点对关系集合,根据原始点对关系集合进行变换矩阵估计;
每个超点对应关系都能得到一个源点云和目标点云的变换矩阵,得到超点对集合估计出的多个变换矩阵后,从中选取出一个最优的变换矩阵。
2.根据权利要求1所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,超点的像素特征的获取过程包括:
将一个点云中的点变换到拍摄第一帧图片时的相机坐标系下,并基于相机标定的内参矩阵将该点变换到图像坐标系下;
对图像坐标系下的点进行齐次化操作,得到一个点在图像中的像素位置;
若在下采样过程中,一个超点在其邻域内被过滤掉个点,则计算这/>个点对应的像素位置,根据像素位置索引得到像素的特征,/>个像素特征构成该超点的像素特征。
3.根据权利要求1或2所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,将第二超点特征与其对应的像素特征基于注意力机制和多层感知机进行融合的过程包括:
通过将超点的第二超点特征映射为注意力机制中的查询向量QA,将超点对应的像素特征分别映射为键向量KA和值向量VA;
通过注意力机制计算注意力权重矩阵,即:
基于多层感知机将注意力权重矩阵W和值向量VA进行融合得到超点的纹理特征,即:
F=MLP(W*VA)
其中,W为第二超点特征与其对应的像素特征之间的注意力权重矩阵,VA为值向量,F表示超点的纹理特征;MLP(·)为多层感知机;C为注意力机制中隐藏层的维度。
4.根据权利要求1所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,两个超点之间的距离特征通过计算两个超点之间的距离并将该距离映射到高维空间作为距离特征。
5.根据权利要求1所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,基于注意力机制将两个超点之间的距离特征与第三超点特征进行融合,得到第四超点特征的过程包括:
通过三个映射矩阵对第三超点特征进行映射得到向量向量/>向量/>通过矩阵Wg将两个超点之间的距离特征/>映射为向量/>计算注意力分数:
根据注意力分数计算第四超点特征:
其中,C表示注意力机制中隐藏层的维度;Score(r,m)为第r个超点与第m个超点之间的注意力分数;Score为所有超点之间的注意力分数构成的注意力矩阵。
6.据权利要求1所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,选择锚点的过程包括以下步骤:
101、设置过滤半径rnms以及锚点集合中锚点对个数K,将超点的第三超点特征作为输入,初始化锚点集合
102、计算源点云和目标点云超点特征向量的欧式距离,得到超点特征相似度,选取出相似度最大的超点对将超点对/>放入集合/>中,并在源点云中过滤/>点旁边rnms半径内的所有超点,在目标点云中过滤/>点旁边rnms半径内的所有超点;
103、重复步骤102,直到输出锚点集合;
其中,|·|表示求一个集合中元素的个数。
7.据权利要求1所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,锚点与超点之间的角度相关性通过将一个超点作为顶点,计算其与任意两个锚点组成的三维空间向量之间的角度,然后将该角度映射到高维空间作为角度相关性特征。
8.根据权利要求1所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,第五超点特征表示为:
其中,为源点云的第五超点特征;/>为源点云的第四超点特征;/>为目标点云的第四超点特征;/>为源点云与锚点之间的几何相关性特征;/>为目标点云与锚点之间的几何相关性特征;C为注意力机制中隐藏层的维度;Wq、Wv、Wk、Wg为可学习的映射矩阵。
9.根据权利要求1所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,旋转矩阵和平移矩阵的计算过程包括:
根据超点对集合中每一个超点区域内的原始点对应关系进行旋转矩阵和平移向量的估计,表示为:
其中,Ri表示通过超点对集合中第i对超点区域估计得到的旋转矩阵;ti表示通过第二点对集合中第i对超点估计得到的平移向量;表示该超点对区域内的原始点对集合;wj表示第j个原始点对的权重;/>表示第j个原始点对中两个点的坐标;R′和t′分别表示根据/>估计出来的粗糙旋转矩阵和平移向量;
从估计出的多个旋转矩阵和平移向量中选取出最优的旋转矩阵和平移向量,表示为:
其中,R表示最优旋转矩阵;t表示最优平移向量;PC表示所有原始点对集合的交集;(pk,qk)表示第k个原始点对中两个点的坐标;τa表示距离误差阈值;[·]为艾佛森括号,若满足括号中的条件则其值为1,否则其值为0。
10.根据权利要求9所述的一种基于图像与几何信息引导的多模态点云配准方法,其特征在于,利用损失函数对获取最佳转换矩阵过程中的可训练参数进行训练的过程包括:
分别计算源点云和目标点云中的超点匹配损失,将源点云和目标点云的超点匹配损失平均值作为超点估计过程中的超点匹配损失,源点云中一个超点的匹配损失表示为:
其中,表示源点云中一个超点的匹配损失;/>表示源点云中至少有一个正样本超点对的超点集合,源点云中的一个超点和目标点云中的一个超点至少有10%的重叠则该超点对为正样本,其他超点对则为负样本,该超点的所有正样本中在目标点云中的超点构成集合/>所有负样本中在目标点云中的超点构成集合/>表示集合/>中的一个超点,表示集合/>中一个超点j,/>表示集合/>中一个超点k;/>表示源点云中一个超点i与目标点云中一个超点j之间的重叠率;/>为正样本比例,表示为/>γ为尺度缩放函数,/>表示源点云中一个超点i与目标点云中一个超点j的第五超点特征在特征空间中的欧几里得距离,Δp为正样本超参数;/>为负样本比例,表示为/> 表示源点云中一个超点i与目标点云中一个超点k的超点特征在特征空间中的欧几里得距离,Δn为负样本超参数;
在每个超点进行匹配的过程中,通过选择Ng对真实的超点对应关系计算出第i对超点区域内的真实点对应关系集合将未匹配正确的点对应关系按照源点云和目标点云分成两个集合/>和/>则第i对超点区域内的点匹配损失函表示:
所有超点的损失函数表示为:
其中,i表示第i个超点对应关系,Si(x,y)代表超点区域内第x个和第y个原始点之间的相似度分数;mi表示源点云中的原始点个数;ni表示目标点云中的原始点个数;Ng为训练节点选出的真实的超点对应关系数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310921353.4A CN117095033B (zh) | 2023-07-25 | 2023-07-25 | 一种基于图像与几何信息引导的多模态点云配准方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310921353.4A CN117095033B (zh) | 2023-07-25 | 2023-07-25 | 一种基于图像与几何信息引导的多模态点云配准方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095033A CN117095033A (zh) | 2023-11-21 |
CN117095033B true CN117095033B (zh) | 2024-05-24 |
Family
ID=88768972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310921353.4A Active CN117095033B (zh) | 2023-07-25 | 2023-07-25 | 一种基于图像与几何信息引导的多模态点云配准方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095033B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887028A (zh) * | 2019-01-09 | 2019-06-14 | 天津大学 | 一种基于点云数据配准的无人车辅助定位方法 |
CN114119549A (zh) * | 2021-11-26 | 2022-03-01 | 卡本(深圳)医疗器械有限公司 | 一种多模态医学图像三维点云配准优化方法 |
CN115661218A (zh) * | 2022-11-02 | 2023-01-31 | 北京数字绿土科技股份有限公司 | 一种基于虚拟超点的激光点云配准方法和*** |
CN115797408A (zh) * | 2022-11-30 | 2023-03-14 | 清华大学 | 融合多视角图像和三维点云的目标跟踪方法及装置 |
CN116228825A (zh) * | 2023-01-29 | 2023-06-06 | 重庆邮电大学 | 一种基于显著锚点几何嵌入的点云配准方法 |
CN116468764A (zh) * | 2023-06-20 | 2023-07-21 | 南京理工大学 | 基于超点空间引导的多视图工业点云高精度配准*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6701006B2 (en) * | 2002-06-26 | 2004-03-02 | Nextengine, Inc. | Apparatus and method for point cloud assembly |
CA2670261A1 (en) * | 2006-11-16 | 2008-05-29 | Vanderbilt University | Apparatus and methods of compensating for organ deformation, registration of internal structures to images, and applications of same |
JP7019731B2 (ja) * | 2019-01-30 | 2022-02-15 | バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド | 自動運転車のためのリアルタイム地図生成システム |
US20220285009A1 (en) * | 2019-08-16 | 2022-09-08 | Z Imaging | Systems and methods for real-time multiple modality image alignment |
JP7192090B2 (ja) * | 2020-05-15 | 2022-12-19 | バイドゥドットコム タイムズ テクノロジー (ベイジン) カンパニー リミテッド | ポイントクラウド融合のための検出器 |
-
2023
- 2023-07-25 CN CN202310921353.4A patent/CN117095033B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887028A (zh) * | 2019-01-09 | 2019-06-14 | 天津大学 | 一种基于点云数据配准的无人车辅助定位方法 |
CN114119549A (zh) * | 2021-11-26 | 2022-03-01 | 卡本(深圳)医疗器械有限公司 | 一种多模态医学图像三维点云配准优化方法 |
CN115661218A (zh) * | 2022-11-02 | 2023-01-31 | 北京数字绿土科技股份有限公司 | 一种基于虚拟超点的激光点云配准方法和*** |
CN115797408A (zh) * | 2022-11-30 | 2023-03-14 | 清华大学 | 融合多视角图像和三维点云的目标跟踪方法及装置 |
CN116228825A (zh) * | 2023-01-29 | 2023-06-06 | 重庆邮电大学 | 一种基于显著锚点几何嵌入的点云配准方法 |
CN116468764A (zh) * | 2023-06-20 | 2023-07-21 | 南京理工大学 | 基于超点空间引导的多视图工业点云高精度配准*** |
Non-Patent Citations (2)
Title |
---|
Hybrid3D: learning 3D hybrid features with point clouds and multi-view images for point cloud registration;Bangbang Yang等;《Science China Information Sciences》;20230629;1-17 * |
基于深度学习的三维点云语义分割技术研究;李晓溪;《中国优秀硕士学位论文电子期刊》;20220115;1-81页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095033A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325797B (zh) | 一种基于自监督学习的位姿估计方法 | |
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
CN111815757B (zh) | 基于图像序列的大型构件三维重建方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN113240691A (zh) | 一种基于u型网络的医学图像分割方法 | |
CN109815847B (zh) | 一种基于语义约束的视觉slam方法 | |
CN113298934B (zh) | 一种基于双向匹配的单目视觉图像三维重建方法及*** | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN113283525B (zh) | 一种基于深度学习的图像匹配方法 | |
CN113516693B (zh) | 一种快速通用的图像配准方法 | |
CN111553845B (zh) | 一种基于优化的三维重建的快速图像拼接方法 | |
CN112766136A (zh) | 一种基于深度学习的空间车位检测方法 | |
CN116310098A (zh) | 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法 | |
CN114299405A (zh) | 一种无人机图像实时目标检测方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN114049541A (zh) | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 | |
Jiang et al. | Contrastive learning of features between images and lidar | |
CN112463999A (zh) | 视觉位置识别方法及装置、计算机设备及可读存储介质 | |
CN111696167A (zh) | 自范例学习引导的单张影像超分辨率重构方法 | |
CN116958958A (zh) | 基于图卷积双流形状先验自适应类别级物体姿态估计方法 | |
CN117095033B (zh) | 一种基于图像与几何信息引导的多模态点云配准方法 | |
CN114998630B (zh) | 一种从粗到精的地对空图像配准方法 | |
CN116630637A (zh) | 基于多模态对比学习的光学-sar图像联合解译方法 | |
CN116402690A (zh) | 一种基于多头自注意力机制的高分辨率遥感影像中道路提取方法、***、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |