CN115496859A - 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 - Google Patents

基于散乱点云交叉注意学习的三维场景运动趋势估计方法 Download PDF

Info

Publication number
CN115496859A
CN115496859A CN202211212144.4A CN202211212144A CN115496859A CN 115496859 A CN115496859 A CN 115496859A CN 202211212144 A CN202211212144 A CN 202211212144A CN 115496859 A CN115496859 A CN 115496859A
Authority
CN
China
Prior art keywords
point cloud
point
motion trend
dimensional scene
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211212144.4A
Other languages
English (en)
Inventor
林洪彬
关勃然
彭秀平
魏佳宁
陈泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202211212144.4A priority Critical patent/CN115496859A/zh
Publication of CN115496859A publication Critical patent/CN115496859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于散乱点云交叉注意学习的三维场景运动趋势估计方法,涉及深度学习和三维点云场景理解领域,以三维场景的运动趋势估计为目标,该网络模型在利用卷积神经网络提取前后帧点云特征的基础上,通过构建关联特征提取模块,捕捉前后帧点云间的联合信息,以提升点云特征刻画的丰富度;通过构建三维场景运动趋势的校准模块,在初步得到点云运动趋势后进行微调,进一步提高三维场景运动趋势估计的精度和可靠性。

Description

基于散乱点云交叉注意学习的三维场景运动趋势估计方法
技术领域
本发明涉及深度学习和三维点云场景理解领域,特别涉及基于散乱点云交叉注意学习的三维场景运动趋势估计方法。
背景技术
点云是指在相同参考坐标系下表示目标物体表面特征及空间分布的点,包含了丰富的信息,可以是三维坐标、颜色、强度值、时间等等。近年来,随着深度相机、激光雷达等3D扫描设备的普及,对三维点云数据的分析和研究得到了发展。作为一种紧凑的三维数据表示形式,点云能够保留三维空间原始的几何信息,在机器人导航、自动驾驶、增强现实、医疗保健等各领域中得到广泛应用。
场景理解是对观察到的三维动态场景进行感知、分析和解释的过程,通常是实时的。这个过程主要是将来自感知环境的传感器的信号信息与人类用来理解场景的模型进行匹配。基于三维点云数据的目标检测、分类、识别是当前解决场景理解的主要技术,而在动态三维场景例如自动驾驶中,点云的运动及其趋势是理解场景的关键。过去的三维场景运动估计方法主要基于二维输入特征,将光流估计方法扩展到立体或RGBD图像。随着点云研究技术的发展,近年来逐渐开始出现通过直接处理三维点云来估计物体运动趋势的方法,选取同一场景的连续两帧点云作为输入,使用深度神经网络分别提取两帧点云的特征,再将点云特征输入流嵌入层来估计点云运动趋势。这些方法使用端对端的方式直接估计点云运动,极具开创性并取得不错的效果,但仍存在一些问题:一方面,作为输入的两帧点云属于同一场景的不同时刻,其特征信息应具有关联和相似性,在使用深度学习网络对输入的点云提取特征信息时,这些方法只是对两帧点云分别进行处理,而没有考虑两点云间的特征关联信息,影响后续步骤的运动估计准确度;另一方面,邻近位置的点云其运动应具有相似性,传统方法在估计点云的运动趋势后,没有考虑邻近位置点云运动的相互关系,导致最终的估计结果误差较高。
注意力(Attention)机制由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者自然语言处理(NLP)中用于定位关键特征。2017年,谷歌机器翻译团队提出基于Transformer的注意力机制,抛弃了传统的卷积神经网络(CNN)和循环神经网络(RNN),整个网络结构完全是由自我注意力(self-Attenion)和前馈神经网络(Feed Forward Neural Network)组成。2021年,贾佳亚等提出一种用于3D点云的Transformer结构,在点云分类和语义分割任务上取得优异的效果。点云本质上是嵌入度量空间的集合,具有无序性和稀疏性,与语言或图像处理相比,Transformer更适合用于点云处理。
发明内容
针对上述的不足,本申请提供了基于散乱点云交叉注意学习的三维场景运动趋势估计方法,该方法能够更准确更有效的估计点云运动趋势。
为了实现上述技术目的,本发明的技术方案为:
基于散乱点云交叉注意学习的三维场景运动趋势估计方法,该方法内容包括以下步骤:
步骤一:分别对输入的第一帧点云X、第二帧点云Y使用邻近算法(KNN)寻找近邻点,获取各点的邻近位置信息(Gragh);
步骤二:将获取的邻近位置信息(Gragh)输入多层卷积网络,提取多层点云特征向量Fx、Fy;
步骤三:将多层点云特征向量连接,输入一维卷积网络进行特征聚合,得到新的点云特征向量Fx、Fy,这样得到的特征信息既包含全局特征,也能很好的捕获点云的局部特征;
步骤四:将点云特征向量Fx、Fy输入关联特征提取模块中,输出新的点云特征向量
Figure BDA0003875463880000031
将得到的新的点云特征向量
Figure BDA0003875463880000032
与Fx、Fy相加,得到最终的两帧点云的特征;
步骤五:基于两帧点云的特征,通过Sinkhorn算法计算得到点云X中各点与点云Y中各点为对应点的权重(w);
步骤六:根据上步得到的权重(w)计算点云X中各点的运动向量(flow);
步骤七:将上步得到的运动向量(flow)与点云X的邻近位置信息(Gragh)输入校准模块,进而得到估计点云运动趋势。
本方法的进一步改进在于:所述校准模块包括该模块包括三个二维卷积层和一个线性层。
本方法的进一步改进在于:在步骤4中的将点云特征输入到关联特征提取模块中捕捉点云间关联信息。
本方法的进一步改进在于:在初步得到点云的运动向量后,将运动向量(flow)与点云X的邻近位置信息(Gragh)输入校准模块,根据点云间位置关系对运动向量进行微调。
由于采用了上述技术方案,本发明取得的技术进步是:1)该方法在使用深度神经网络提取点云特征后,使用基于交叉注意力机制的Transformer作为关联特征提取模块,以使点云特征在保留自身信息的基础上能够感知捕获另一帧点云的位置编码信息;进一步,通过使用Sinkhorn算法,根据点云的特征相似性,在第二帧点云的全局范围内估算第一帧点云在其中的对应点,进而估计点云运动。最后,通过运动修正网络对点云的运动趋势进行微调。相较于以往的方法,本发明中的方法能够更准确更有效的估计点云运动趋势。
2)改进了点云特征提取方式,通过关联特征提取模块捕获两帧点云间的联合特征,以及使用校准模块,提高了网络的计算准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体网络结构示意图;
图2为网络中所使用的关联特征提取模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一种基于散乱点云交叉注意学习的三维场景运动趋势估计方法,步骤如下:
步骤一:分别对输入的第一帧点云X、第二帧点云Y作KNN寻找近邻点,获取各点的邻近位置信息(Gragh)。
选取距离点x最近的K个点{x1,x2,…,xk,},将其坐标(xi,xj,xk)和(xki,xkj,xkk)连接为(xi,xj,xk,xki,xkj,xkk),得到各点的邻域信息(Gragh)。
步骤二:将获取的邻近位置信息(Gragh)输入多层卷积网络,提取点云特征。
将邻近位置信息(Gragh)输入依次为32、32、64、128层的一维卷积网络,每一层计算后加入批规范化层(Batch Normalization)和激活函数层(Relu)。
步骤三:将各层网络的输出张量连接,输入一维卷积网络进行特征聚合,得到新的点云特征向量Fx、Fy,这样得到的特征信息既包含全局特征,也能很好的捕获点云的局部特征。
将各层卷积网络的输出连接为256层的特征向量,输入一维卷积网络进行特征融合,最终得到256维的两点云特征Fx、Fy
步骤四:将点云的特征向量Fx、Fy输入基于交叉注意力机制的关联特征提取模块中,输出新的点云特征,再将新的特征向量与Fx、Fy相加,得到最终的点云特征
Figure BDA0003875463880000051
Figure BDA0003875463880000052
Figure BDA0003875463880000053
其中,φ:RN×P×RN×P→RN×P是Transformer学习得到的非对称映射函数,N为点云中点的个数,P代表特征维度。φ被视作一个残差项,它能够基于Fx、Fy的输入顺序为其提供一个附加的改变项φ(Fx,Fy)。与Fx相比,除包含点云X自身的特征信息外,
Figure BDA0003875463880000054
还学习到点云Y中与X相关的结构信息。
步骤五:得到点云特征后,使用Sinkhorn算法计算得到点云X中各点与点云Y中各点为对应点的权重(weight)。
首先,根据点云特征
Figure BDA0003875463880000055
计算点云X到点云Y的运输成本矩阵:
Figure BDA0003875463880000056
其中:
Figure BDA0003875463880000057
当两点的距离大于设置的临界值dmax时,其运输成本Cij设置为无穷大。
两点的点云特征越相似,即特征距离越小,则运输成本Cij越小。在得到各对应点的运输成本后,使用Sinkhorn算法计算两帧点云的权重矩阵W。
步骤六:根据上步得到的权重(w)计算第一帧点云X中各点的运动向量(flow)。
第一帧点云中的点x与点云Y各点的坐标差与其对应的权重相乘,加权得到点x的运动向量fx
计算公式为:
Figure BDA0003875463880000061
步骤七:将上步得到的运动向量(flow)与输入点云X的近邻位置信息(Gragh)输入运动修正网络,输出修正后的运动向量(fout)。
点云中相邻的点应该有相近的运动趋势,故在初步得到点云X的运动向量后,将其与包含近邻点信息的Gragh输入卷积神经网络,该网络由三层全连接网络和线性变换层组成,进一步调整运动向量得到变化量Δ(f),与fx相加得到fout
fout=fx+Δ(f) (6)
本发明中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.基于散乱点云交叉注意学习的三维场景运动趋势估计方法,其特征在于,该方法内容包括以下步骤:
步骤一:分别对输入的第一帧点云X、第二帧点云Y使用邻近算法(KNN)寻找近邻点,获取各点的邻近位置信息(Gragh);
步骤二:将获取的邻近位置信息(Gragh)输入多层卷积网络,提取多层点云特征向量Fx、Fy;
步骤三:将多层点云特征向量连接,输入一维卷积网络进行特征聚合,得到新的点云特征向量Fx、Fy,这样得到的特征信息既包含全局特征,也能很好的捕获点云的局部特征;
步骤四:将点云特征向量Fx、Fy输入关联特征提取模块中,输出新的点云特征向量
Figure FDA0003875463870000011
将得到的新的点云特征向量
Figure FDA0003875463870000012
与Fx、Fy相加,得到最终的两帧点云的特征;
步骤五:基于两帧点云的特征,通过Sinkhorn算法计算得到点云X中各点与点云Y中各点为对应点的权重(w);
步骤六:根据上步得到的权重(w)计算点云X中各点的运动向量(flow);
步骤七:将上步得到的运动向量(flow)与点云X的邻近位置信息(Gragh)输入校准模块,进而得到估计点云运动趋势。
2.根据权利要求1所述的基于散乱点云交叉注意学习的三维场景运动趋势估计方法,其特征在于,所述校准模块包括该模块包括三个二维卷积层和一个线性层。
3.根据权利要求1所述的基于散乱点云交叉注意学习的三维场景运动趋势估计方法,其特征在于,在步骤4中的将点云特征输入到关联特征提取模块中捕捉点云间关联信息。
4.根据权利要求1所述的基于散乱点云交叉注意学习的三维场景运动趋势估计方法,其特征在于:在初步得到点云的运动向量后,将运动向量(flow)与点云X的邻近位置信息(Gragh)输入校准模块,根据点云间位置关系对运动向量进行微调。
CN202211212144.4A 2022-09-30 2022-09-30 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 Pending CN115496859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211212144.4A CN115496859A (zh) 2022-09-30 2022-09-30 基于散乱点云交叉注意学习的三维场景运动趋势估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211212144.4A CN115496859A (zh) 2022-09-30 2022-09-30 基于散乱点云交叉注意学习的三维场景运动趋势估计方法

Publications (1)

Publication Number Publication Date
CN115496859A true CN115496859A (zh) 2022-12-20

Family

ID=84471581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211212144.4A Pending CN115496859A (zh) 2022-09-30 2022-09-30 基于散乱点云交叉注意学习的三维场景运动趋势估计方法

Country Status (1)

Country Link
CN (1) CN115496859A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401794A (zh) * 2023-06-09 2023-07-07 四川大学 基于注意力引导的深度点云配准的叶片三维精确重建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401794A (zh) * 2023-06-09 2023-07-07 四川大学 基于注意力引导的深度点云配准的叶片三维精确重建方法
CN116401794B (zh) * 2023-06-09 2023-08-15 四川大学 基于注意力引导的深度点云配准的叶片三维精确重建方法

Similar Documents

Publication Publication Date Title
Xu et al. Unifying flow, stereo and depth estimation
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和***
CN113538218B (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN111797692B (zh) 一种基于半监督学习的深度图像手势估计方法
WO2024114321A1 (zh) 图像数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品
CN114299405A (zh) 一种无人机图像实时目标检测方法
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN114067075A (zh) 基于生成对抗网络的点云补全方法及装置
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN116958420A (zh) 一种数字人教师三维人脸的高精度建模方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
Harisankar et al. Unsupervised depth estimation from monocular images for autonomous vehicles
CN116091762A (zh) 一种基于rgbd数据和视锥体的三维目标检测方法
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法
CN112419387B (zh) 一种日光温室番茄植株图像无监督深度估计方法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
Chen et al. End-to-end multi-view structure-from-motion with hypercorrelation volume

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination