CN111428855B - 一种端到端的点云深度学习网络模型和训练方法 - Google Patents
一种端到端的点云深度学习网络模型和训练方法 Download PDFInfo
- Publication number
- CN111428855B CN111428855B CN202010116881.9A CN202010116881A CN111428855B CN 111428855 B CN111428855 B CN 111428855B CN 202010116881 A CN202010116881 A CN 202010116881A CN 111428855 B CN111428855 B CN 111428855B
- Authority
- CN
- China
- Prior art keywords
- point
- points
- monitoring
- sampling
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 title claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims abstract description 127
- 238000005070 sampling Methods 0.000 claims abstract description 87
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 26
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 24
- 239000010410 layer Substances 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 11
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 210000004709 eyebrow Anatomy 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000004243 E-number Substances 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 210000000887 face Anatomy 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种端到端的点云深度学习网络模型和训练方法,可同时定位不同尺度人脸上的标识点,网络的定位精度好,定位速度快。网络模型,为类卷积神经网络CNN的深度学习网络结构,包括:(1)该网络从输入点云逐级降采样得到一系列采样点集,并使用点分布特征提取器逐级提取每个采样点集中采样点的邻域点云的点分布特征,采样点的邻域点云的点分布特征逐级抽象且空间感受野逐级扩大;(2)从采样点集中选取部分点集,并将这些采样点集中所有的采样点称为监测点,使用这些监测点对标识点进行定位;(3)对每个监测点位于不同标识点邻域的概率以及与不同的标识点的偏移量进行预测。
Description
技术领域
本发明涉及点云图像处理和深度学习的技术领域,尤其涉及一种端到端的点云深度学习网络模型,以及一种端到端的点云深度学习的训练方法。
背景技术
三维图像是一种特殊的信息表达形式,其特征是表达的空间中三个维度的数据,表现形式包括:深度图(以灰度表达物体与相机的距离),几何模型(由CAD软件建立),点云模型(所有逆向工程设备都将物体采样成点云)。和二维图像相比,三维图像借助第三个维度的信息,可以实现天然的物体——背景解耦。点云数据是最为常见也是最基础的三维模型。点云模型往往由测量直接得到,每个点对应一个测量点,未经过其他处理手段,故包含了最大的信息量。这些信息隐藏在点云中需要以其他提取手段将其萃取出来,提取点云中信息的过程则为三维图像处理。
点云是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合,在获取物体表面每个采样点的空间坐标后,得到的是点的集合,称之为“点云”(PointCloud)。
点云中标识点的快速精准定位在身份识别、3D模型分割、3D模型检索等领域均有非常重要的应用,其中3D人脸点云中的标识点的自动定位在人脸识别、表情识别、头部位姿识别、头部运动估计、头部点云稠密匹配、嘴唇形状分析、头部手术以及疾病诊断等方面均有十分重要应用。
但是,目前的技术不能同时保证算法的精度与速度,速度较快的算法精度较低,而精度较高的算法速度较慢,无法满足对精度和速度同时要求较高的应用。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种端到端的点云深度学习网络模型,可同时定位不同尺度人脸上的标识点,网络的定位精度高,定位速度快。
本发明的技术方案是:这种端到端的点云深度学习网络模型,其为类卷积神经网络CNN的深度学习网络结构,其包括以下步骤:
(1)该网络从输入点云逐级降采样得到一系列采样点集,并使用点分布特征提取器逐级提取每个采样点集中采样点的邻域点云的点分布特征,采样点的邻域点云的点分布特征逐级抽象且空间感受野逐级扩大;
(2)从采样点集中选取部分点集,并将这些采样点集中的所有的采样点称为监测点,使用这些监测点对标识点进行定位;
(3)对每个监测点位于不同标识点邻域的概率以及与不同的标识点的偏移量进行预测。
本发明使用点分布特征提取器提取采样点的邻域点云分布特征,点的邻域点分布特征逐级抽象且空间感受野逐级扩大,从而能够表达不同空间范围内点的分布特征,本发明使用多个具有不同空间感受野的监测点集,使网络能够同时定位不同尺度人脸上的标识点;本网络使用端到端的训练机制,因此可使网络取得比较高的定位精度,由于算法消耗时间为点云在网络的前向传播的耗时,经过轻量型设计,算法耗时较短且较稳定。
还提供了一种端到端的点云深度学习网络模型的训练方法,其将每个监测点与多个标识点进行匹配,只要监测点与某个标识点是邻近的,便将此标识点与监测点进行匹配,使用每个监测点的特征对与它匹配的标识点的位置进行预测,将点云中标识点的定位问题转化成一个多标签预测及回归的问题。
附图说明
图1是Landmark Net的结构及其应用在一个具有正常尺度人脸点集上的应用流程图。
图2标识点是一个简单的监测点与目标标识点匹配结果的示意图。
图3是根据本发明的端到端的点云深度学习网络模型的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本揭示内容的叙述更加详尽与完备,下文针对本发明的实施方式与具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。
如图3所示,这种端到端的点云深度学习网络模型,其为类卷积神经网络CNN的深度学习网络结构,其包括以下步骤:
(1)该网络从输入点云逐级降采样得到一系列采样点集,并使用点分布特征提取器逐级提取每个采样点集中采样点的邻域点云的点分布特征,采样点的邻域点云点分布特征逐级抽象且空间感受野逐级扩大;
(2)从采样点集中选取部分点集,并将这儿写采样点集中的所有的采样点称为监测点,使用这些监测点对标识点进行定位;
(3)对每个监测点位于不同标识点邻域的概率以及与不同的标识点的偏移量进行预测。
本发明使用点分布特征提取器提取采样点的邻域点云分布特征,点的邻域点分布特征逐级抽象且空间感受野逐级扩大,从而能够表达不同空间范围内点的分布特征,本发明使用多个具有不同空间感受野的监测点集,可使网络能够同时定位不同尺度人脸上的标识点;本网络使用端到端的训练机制,因此可使网络取得比较高的定位精度,由于算法消耗时间为点云在网络的前向传播的耗时,经过轻量型设计,算法耗时较短且较稳定。
优选地,所述步骤(1)中,对于任意输入点云P,首先使用Voxel Grid滤波器将其降采样为点云密度为D的点云P0;按照固定的采样比例{τ1,τ2,…,τn}从P0中进行逐级降采样,得到采样点集{P1,P2,…,Pn};
从第一个采样点集P1开始,使用特征抽象操作逐级提取采样点集{P1,P2,…,Pn}中采样点的抽象特征。特征抽象操作作用于点集Pi-1,计算点集Pi中每个采样点的抽象特征,对于采样点集Pi内的第k个采样点在采样点集Pi-1内找到位于以点/>为中心的半径为ri球形内部的邻域子集/>使用点分布特征提取器提取/>内的ni个点及其特征向量,得到点/>的抽象特征向量/>其中,ni与点云密度为D呈正相关。采样点集Pi中所有采样点的特征/>组成点集Pi的抽象特征集合Fi,各采样点集{P1,P2,…,Pn}的特征集合{F1,F2,…,Fn}的空间感受野是逐级扩大的,且是逐级抽象的;最终是由点云提取器作用于Pn中所有的点,将产生一个表达全局特征的特征向量。
接着,从最后一层采样点集Pn开始将逐级得到采样点集{Pn,Pn-1,…,P1}内所有采样点的传播特征将组成传播特征集合特征传播操作作用于点集Pi+1,计算点集Pi中每个采样点的传播特征,对于采样点集Pi内的第k个采样点/>将点集Pi+1中与最近的3个点的抽象特征以与/>距离的导数为权重进行加权平均,将加权平均结果与点的抽象特征/>进行拼接,使用多个多层感知机(MLP)和非线性激活函数(ReLu函数)作用于拼接结果,得到点/>的传播特征/>采样点集Pi中所有采样点的传播特征/>组成点集Pi的传播特征集合/>由于采样点集Pn的下一级是一个特征向量,将这个特征向量当作加权平均结果与采样点集Pn中每个点的抽象特征进行拼接,得到点集Pn中每个采样点的传播特征/>
优选地,所述步骤(1)中,Voxel Grid滤波器首先将空间体素化,坐落于每个体素内的点的重心组成输出点云。
优选地,所述步骤(2)中,从采样点集{P1,P2,…,Pn}中选取多个点集,将其称为监测点集MPS,将这些监测点集中所有的采样点称为监测点;对于第i个监测点集Pi中的第k个监测点将/>和/>分别进行批量归一化后进行拼接,将拼接结果作为每个监测点的特征/>每个监测点的特征/>反映了此监测点邻域内的点分布特征,位于不同区域的监测点的特征是具有区分度的,根据每个监测点的特征对该监测点属于哪个目标标识点邻域进行判断,对临近目标标识点的位置进行预测。
优选地,所述步骤(3)中,若目标标试点的数目为L,对于第i个监测点集Pi中的第k个监测点使用1个输出维度为L的单层全连接层/>作用于其特征/>上,对该监测点位于各个标识点邻域内的概率进行预测,使用L个输出维度为3的单层全连接层 作用于其特征/>上,对该监测点/>与各标识点的偏移量(Δx,Δy,Δz)进行预测;第j个/>对此监测点与第j个标识点的偏移量进行预测。
优选地,所述步骤(3)中,在这些全连接层的参数在每个采样点集中是共享参数的。
图1是Landmark Net的结构及其应用在一个具有正常尺度人脸点集上的应用流程图。以下具体说明:
网络由许多特征抽象操作和特征传播操作组成。对于任意输入点云P,首先使用Voxel Grid滤波器将其降采样为点云密度为D的点云P0。Voxel Grid滤波器首先将空间体素化,坐落于每个体素内的点的重心组成输出点云。按照固定的采样比例{τ1,τ2,…,τn}从P0中进行逐级采样,得到采样点集{P1,P2,…,Pn}。从第一个采样点集P1开始,使用特征抽象操作逐级提取采样点集{P1,P2,…,Pn}中采样点的抽象特征。特征抽象操作作用于点集Pi-1,计算点集Pi中每个采样点的抽象特征,对于采样点集Pi内的第k个采样点在采样点集Pi-1内找到位于以点/>为中心的半径为ri球形内部的邻域子集/>使用点分布特征提取器(比如PointNet,RS-CNN等)作用于/>内的ni个点及其特征向量,得到点/>的抽象特征向量/>其中,,ni与点云密度为D呈正相关。每个采样点集中所有采样点的特征/>组成了点集Pi的抽象特征集合Fi,各采样点集{P1,P2,…,Pn}的特征集合{F1,F2,…,Fn}的空间感受野是逐级扩大的,且是逐级抽象的。最后,使用点与特征提取器作用于Pn中所有的点,将产生一个表达全局特征的特征向量。接着,从最后一层采样点集Pn开始,将逐级得到采样点集{Pn,Pn-1,…,P1}内所有采样点的传播特征将组成传播特征集合/>特征传播操作作用于点集Pi+1,计算点集Pi中每个采样点的传播特征,对于采样点集Pi内的第k个采样点/>将点集Pi+1中与/>最近的3个点的抽象特征以与/>的距离的导数为权重进行加权平均,将加权平均结果与点/>的抽象特征/>进行拼接,使用多个多层感知机(MLP)和非线性激活函数(ReLu)作用于拼接结果,得到点/>的传播特征/>由于采样点集Pn的下一级识一个特征向量,那么将这个特征向量当作加权平均结果与采样点集Pn中每个点的抽象特征进行拼接,经过多个多层感知机(MLP)和非线性激活函数(ReLu),得到点集Pn中每个采样点的传播特征/>
从采样点集{P1,P2,…,Pn}中选取多个点集,将其称为监测点集(MPS),将这些监测点集中所有的采样点称为监测点。对于第i个监测点集Pi中的第k个监测点将/>和/>分别进行批量归一化后进行拼接,将拼接结果作为每个监测点的特征/>由于每个监测点的特征/>反映了此监测点邻域内的点分布特征,位于不同区域内的监测点的特征是具有区分度的,能够根据每个监测点的特征对该监测点属于哪个目标标识点邻域进行判断,并能够对临近目标标识点的位置进行预测。
若目标目标标识点的数目为L,对于第i个监测点集Pi中的第k个监测点使用1个输出维度为L的单层全连接层/>作用于其特征/>上,对该监测点位于各个标识点邻域内的概率进行预测,使用L个输出维度为3的单层全连接层作用于其特征/>上,对该监测点/>与各标识点的偏移量(Δx,Δy,Δz)进行预测。不同的/>(比如,/>)对此监测点与不同的标识点(比如,第j个标识点)的偏移量进行预测。在这些全连接层的参数在每个采样点集中是共享参数的。
具有较大空间感受野的特征能够表达更大空间范围内点的分布特征,可以被用来定位尺度较大的人脸上的标识点,反之亦然。如果使用多个具有不同空间感受野的监测点集,可使网络能够同时定位不同尺度人脸上的标识点。由于标识点的相对拓扑关系以及标识点与人脸上的特征区域的相对位置是相对固定的,全局信息对标识点的定位有帮助,由于点的传播特征包含全局信息,因此除了监测点的抽象特性外,还集成了监测点的传播特性作为监测点的特性,以提升网络的定位稳定性。
还提供了一种端到端的点云深度学习网络模型的训练方法,其将每个监测点与多个标识点进行匹配,只要监测点与某个标识点是邻近的,便将此标识点与监测点进行匹配,使用每个监测点的特征对与它匹配的标识点的位置进行预测,将点云中标识点的定位问题转化成一个多标签预测及回归的问题。
优选地,当使用此网络对具有多尺度的点集中的标识点进行定位时,将具有特定尺度的点集中标识点与具有对应大小空间感受野的监测点进行匹配,分别以金标准标识点和监测点为中心,设置一系列方框,分别叫做目标框TBX和检测框MBX。
优选地,根据训练数据的金标准设置TBX的边长(lx t,ly t,Lz t),设置方式为公式(1):
其中,是左外眼角,/>是右外眼角,/>是眉心,/>是下巴尖;根据用于在每个监测点/>上一级点集中产生/>的球的半径ri设置/>的边长(lx m,ly m,lz m),设置方式为公式(2):
lx m=ly m=lz m=2ri (2)
如果第j个金标准标识点的TBX与监测点的/>的jaccard值超过阈值thm,则根据公式(3)进行匹配:
优选地,使用公式(4)的损失函数同时对网络的所有参数进行训练,损失函数包括分类损失函数和回归损失函数
loss=lossc+λlossr (4)
分类损失函数为公式(5)
其中i,k分别为监测点集的索引以及监测点集内监测点的索引;
lossi,k为监测点的分类损失,/>是使用sigmoid函数作用于/>的输出的第j维计算所得的网络预测的监测点/>位于第j个金标准标识点邻域内部的概率,定义至少与一个金标准标识点匹配的监测点为正样本,将不与任何一个金标准标识点匹配的监测点为负样本,Np为正样本的数量,Ne为负样本的数量;
根据lossi,k对负样本进行排序,选择lossi,k最大的前几个负样本计算分类损失,并保证参与计算的负样本的个数不大于正样本个数的三倍。
回归损失函数为公式(6):
是由网络预测的监测点/>与第j个目标标识点的偏移量,为的输出;/>为对应的金标准。
图2是一个简单的监测点与目标标识点匹配结果的示意图。以下详细说明训练方法。
在网络训练阶段,需要将监测点与训练数据中的金标准进行匹配,根据匹配结果对网络进行训练。
为了解决以上两个问题,提出了多标签匹配策略(MLM),将每个监测点与多个标识点进行匹配,只要监测点与某个标识点是邻近的,便将此标识点与监测点进行匹配,使用每个监测点的特征对与它匹配的标识点的位置进行预测,将点云中标识点的定位问题转化成一个多标签预测及回归的问题。
当使用此网络对具有多尺度的点集中的标识点进行定位时,需要将具有某特定尺度的点集中标识点与具有对应大小空间感受野的监测点进行匹配,为此分别以金标准标识点和监测点为中心,设置了一系列方框,分别叫做目标框(TBX)和检测框(MBX)。如图2所示,两个实心黑点和两个粗线方框分别代表了两个目标标识点和他们的TBX。三个斜线填充的黑点和三个细线方框分别是三个监测点和他们的MBX。
为了使TBX的大小可反映训练数据中人脸的尺度,根据训练数据的金标准设置TBX的边长(lx t,ly t,lz t),设置方式如下:
其中,是左外眼角,/>是右外眼角,/>是眉心,/>是下巴尖。
根据用于在每个监测点上一级点集中产生/>的球的半径ri设置/>的边长(lx m,ly m,lz m),设置方式如下:
lx m=ly m=lz m=2ri
如果第j个金标准标识点的TBX与监测点的/>的jaccard值超过阈值thm,则将他们进行匹配/>
损失函数:使用如下损失函数对网络的所有参数进行同步训练,损失函数包括分类损失函数和回归损失函数。
loss=lossc+λlossr
其中分类损失函数如下:
其中i,k分别为监测点集的索引以及监测点集内监测点的索引;lossi,k为监测点的分类损失,/>是使用sigmoid函数作用于/>的输出的第j维计算所得的网络预测的监测点/>位于第j个金标准标识点邻域内部的概率,通过式(3)得到/>定义至少与一个金标准标识点匹配的监测点为正样本,将不与任何一个金标准标识点匹配的监测点为负样本,Np为正样本的数量,Ne为负样本的数量。
由于负样本的数量远大于正样本的数量,根据lossi,k对负样本进行排序,选择lossi,k最大的前几个负样本计算分类损失,并保证参与计算的负样本的个数不大于正样本个数的三倍。
回归损失函数的定义方式如下:
通过式(3)得到 是由网络预测的监测点/>与第j个目标标识点的偏移量,为/>的输出;/>为对应的金标准。
更详细地,在网络中使用了RS-Conv作为点分布特征提取器,使用3D欧氏距离以及坐标差(3D-Ed,xi-xj)作为点云的低级分布关系信息h。网络共包含8个特征抽象操作和特征传播操作,采样比例{τ1,τ2,…,τ7}分别为{7/20,8/10,10/15,15/20,20/25,25/60,60/120},用于生成每个采样点的局部采样子集的采样半径{r1,r2,…,r7}分别为{8,10,15,20,25,60,120}(mm),最后一个特征抽象操作为作用于点集P7中全部的点,使用最远采点法从上一级采样点集中采集每采样点的局部点云子集/>局部点云子集/>中采样点的数量{s1,s2,…,s7}分别为{75/V,100/V,50/V,75/V,75/V,200/V,100/V},其中V为用于降采样输入点集的Voxel Grid滤波器中网格的尺寸,V=5mm。除此之外,λ=1,thm=0.2,thp=0.9,thd=3mm,the=5mm。
用于预测缺失标识点的协方差矩阵Cov(X)根据训练集中的金标准进行计算,训练数据中缺失的金标准标识点进行补齐,以完成对金标准与监测点的匹配情况的计算。
数据增强:按顺序将训练数据分别绕x,y,z轴以从-2.5°至+2.5°区间范围内随机选取的角度值进行旋转,并且在训练数据的每一个点上加入均值为0标准差为0.25mm的随机抖动。随机旋转和随机抖动将每次训练网络所使用的训练数据变得彼此不同,这将使网络训练变得稳定,因此是非常重要。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (9)
1.一种端到端的点云深度学习网络模型的预测方法,其特征在于:模型为类卷积神经网络CNN的深度学习网络结构,其包括以下步骤:
(1)该网络从输入点云逐级降采样得到一系列采样点集,并使用点分布特征提取器逐级提取每个采样点集中采样点的邻域点云的点分布特征,采样点的邻域点云的点分布特征逐级抽象且空间感受野逐级扩大;
(2)从采样点集中选取部分点集,并将这些采样点集中的所有的采样点称为监测点,使用这些监测点对标识点进行定位;
(3)对每个监测点位于不同标识点邻域的概率以及与不同的标识点的偏移量进行预测;
所述步骤(1)中,对于任意输入点云P,首先使用Voxel Grid滤波器将其降采样为点云密度为D的点云P0;按照固定的采样比例{τ1,τ2,…,τn}从P0中进行逐级降采样,得到采样点集{P1,P2,…,Pn};从第一个采样点集P1开始,使用特征抽象操作逐级提取采样点集{P1,P2,…,Pn}中采样点的抽象特征;特征抽象操作作用于点集Pi-1,计算点集Pi中每个采样点的抽象特征,对于采样点集Pi内的第k个采样点在采样点集Pi-1内找到位于以点/>为中心的半径为ri球形内部的邻域子集/>使用点分布特征提取器提取/>内的ni个点及其特征向量,得到点/>的抽象特征向量fi k,其中,ni与点云密度为D呈正相关;每个采样点集中所有采样点的特征fi k组成点集Pi的抽象特征集合Fi,各采样点集{P1,P2,…,Pn}的特征集合{F1,F2,…,Fn}的空间感受野是逐级扩大的,且是逐级抽象的;最终使用点云特征提取器作用于Pn中所有的点,将产生一个表达全局特征的特征向量;
接着,从最后一层采样点集Pn开始,将逐级得到采样点集{Pn,Pn-1,…,P1}内所有采样点的传播特征将组成传播特征集合特征传播操作作用于点集Pi+1,计算点集Pi中每个采样点的抽象特征,对于采样点集Pi内的第k个采样点/>将点集Pi+1中与/>最近的3个点的抽象特征以与/>的距离的倒数为权重进行加权平均,将加权平均的结果与点的抽象特征fi k与进行拼接,使用多个多层感知机MLP和非线性激活函数ReLu函数作用于拼接结果,得到点/>的传播特征/>由于采样点集Pn的下一级是一个特征向量,那么将这个特征向量当作加权平均结果与采样点集Pn中每个点的抽象特征进行拼接,得到点集Pn中每个采样点的传播特征/>
2.根据权利要求1所述的端到端的点云深度学习网络模型的预测方法,其特征在于:所述步骤(1)中,Voxel Grid滤波器首先将空间体素化,坐落于每个体素内的点的重心组成输出点云。
3.根据权利要求2所述的端到端的点云深度学习网络模型的预测方法,其特征在于:所述步骤(2)中,从采样点集{P1,P2,…,Pn}中选取多个点集,将其称为监测点集MPS,将这些监测点集中的所有采样点称为监测点;对于第i个监测点集Pi中的第k个监测点将fi k和/>分别进行批量归一化后进行拼接,将拼接结果作为每个监测点的特征/>每个监测点的特征/>反映了此监测点邻域内的点分布特征,位于不同区域内的监测点的特征是具有区分度的,根据每个监测点的特征对该监测点位于哪个目比标识点邻域进行判断,对临近目比标识点的位置进行预测。
4.根据权利要求3所述的端到端的点云深度学习网络模型的预测方法,其特征在于:所述步骤(3)中,若目标标识点的数目为L,对于第i个监测点集Pi中的第k个监测点使用1个输出维度为L的单层全连接层/>作用于其特征/>上,对该监测点位于各个标识点邻域内的概率进行预测,使用L个输出维度为3的单层全连接层作用于其特征/>上,对该监测点/>与各标识点的偏移量(Δx,Δy,Δz)进行预测;第j个/>对此监测点与第j个标识点的偏移量进行预测。
5.根据权利要求4所述的端到端的点云深度学习网络模型的预测方法,其特征在于:所述步骤(3)中,在这些全连接层的参数在每个采样点集中是共享参数的。
6.根据权利要求5所述的端到端的点云深度学习网络模型的预测方法,其特征在于:其将每个监测点与多个标识点进行匹配,只要监测点与某个标识点是邻近的,便将此标识点与监测点进行匹配,使用每个监测点的特征对与它匹配的标识点的位置进行预测,将点云中标识点的定位问题转化成一个多标签预测及回归的问题。
7.根据权利要求6所述的端到端的点云深度学习网络模型的预测方法,其特征在于:当使用此网络对具有多尺度的点集中的标识点进行定位时,将具有特定尺度的点集中标识点与具有对应大小空间感受野的监测点进行匹配,分别以金标准标识点和监测点为中心,设置一系列方框,分别叫做目标框TBX和检测框MBX。
8.根据权利要求7所述的端到端的点云深度学习网络模型的预测方法,其特征在于:根据训练数据的金标准设置TBX的边长(lx t,ly t,lz t),设置方式为公式(1):
其中,是左外眼角,/>是右外眼角,/>是眉心,/>是下巴尖;
根据用于在每个监测点上一级点集中产生/>的球的半径ri设置/>的边长(lx m,ly m,lz m),设置方式为公式(2):
lx m=ly m=lz m=2ri (2)
如果第j个金标准标识点的TBX与监测点的/>的jaccard值超过阈值thm,则根据公式(3)进行匹配:
9.根据权利要求8所述的端到端的点云深度学习网络模型的预测方法,其特征在于:使用公式(4)的损失函数同时对网络的所有参数进行学习,损失函数包括分类损失函数和回归损失函数
loss=lossc+λlossr (4)
分类损失函数为公式(5)
其中i,k分别为监测点集的索引以及监测点集内监测点的索引;
lossi,k为监测点的分类损失,/>是使用sigmoid函数作用于/>的输出的第j维计算所得的网络预测的监测点/>位于第j个金标准标识点邻域内部的概率,定义至少与一个金标准标识点匹配的监测点为正样本,将不与任何一个金标准标识点匹配的监测点为负样本,Np为正样本的数量,Ne为负样本的数量;
根据lossi,k对负样本进行排序,选择lossi,k最大的前几个负样本计算分类损失,并保证参与计算的负样本的个数不大于正样本个数的三倍;
回归损失函数为公式(6):
是由网络预测的监测点/>与第j个目标标识点的偏移量,为的输出;/>为对应的金标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116881.9A CN111428855B (zh) | 2020-02-25 | 2020-02-25 | 一种端到端的点云深度学习网络模型和训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116881.9A CN111428855B (zh) | 2020-02-25 | 2020-02-25 | 一种端到端的点云深度学习网络模型和训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428855A CN111428855A (zh) | 2020-07-17 |
CN111428855B true CN111428855B (zh) | 2023-11-14 |
Family
ID=71551571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116881.9A Active CN111428855B (zh) | 2020-02-25 | 2020-02-25 | 一种端到端的点云深度学习网络模型和训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428855B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085123B (zh) * | 2020-09-25 | 2022-04-12 | 北方民族大学 | 基于显著点采样的点云数据分类和分割方法 |
CN116045833B (zh) * | 2023-01-03 | 2023-12-22 | 中铁十九局集团有限公司 | 一种基于大数据的桥梁施工变形监测*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544700A (zh) * | 2018-10-12 | 2019-03-29 | 深圳大学 | 基于神经网络的点云数据的处理方法、装置和设备 |
CN110197223A (zh) * | 2019-05-29 | 2019-09-03 | 北方民族大学 | 基于深度学习的点云数据分类方法 |
CN110321910A (zh) * | 2018-03-29 | 2019-10-11 | 中国科学院深圳先进技术研究院 | 面向点云的特征提取方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11379688B2 (en) * | 2017-03-16 | 2022-07-05 | Packsize Llc | Systems and methods for keypoint detection with convolutional neural networks |
-
2020
- 2020-02-25 CN CN202010116881.9A patent/CN111428855B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321910A (zh) * | 2018-03-29 | 2019-10-11 | 中国科学院深圳先进技术研究院 | 面向点云的特征提取方法、装置及设备 |
CN109544700A (zh) * | 2018-10-12 | 2019-03-29 | 深圳大学 | 基于神经网络的点云数据的处理方法、装置和设备 |
CN110197223A (zh) * | 2019-05-29 | 2019-09-03 | 北方民族大学 | 基于深度学习的点云数据分类方法 |
Non-Patent Citations (1)
Title |
---|
PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection;Shaoshuai Shi etc.;arXiv:1912.13192v1;第1、3节、图1-2 * |
Also Published As
Publication number | Publication date |
---|---|
CN111428855A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
CN110472483B (zh) | 一种面向sar图像的小样本语义特征增强的方法及装置 | |
CN108230329B (zh) | 基于多尺度卷积神经网络的语义分割方法 | |
CN109685768B (zh) | 基于肺部ct序列的肺结节自动检测方法及*** | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN106951923B (zh) | 一种基于多视角信息融合的机器人三维形状识别方法 | |
CN112396002A (zh) | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
CN111428855B (zh) | 一种端到端的点云深度学习网络模型和训练方法 | |
Zelener et al. | Cnn-based object segmentation in urban lidar with missing points | |
EP4053734A1 (en) | Hand gesture estimation method and apparatus, device, and computer storage medium | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及*** | |
CN113255779B (zh) | 多源感知数据融合识别方法、***及计算机可读存储介质 | |
CN112991281B (zh) | 视觉检测方法、***、电子设备及介质 | |
CN116311387B (zh) | 一种基于特征交集的跨模态行人重识别方法 | |
CN113536920A (zh) | 一种半监督三维点云目标检测方法 | |
CN117152601A (zh) | 一种基于动态感知区域路由的水下目标检测方法及*** | |
Da et al. | Remote sensing image ship detection based on improved YOLOv3 | |
CN114627183A (zh) | 一种激光点云3d目标检测方法 | |
Lavanya et al. | Enhancing Real-time Object Detection with YOLO Algorithm | |
Zhang et al. | Multiple Objects Detection based on Improved Faster R-CNN | |
Zelener | Object Localization, Segmentation, and Classification in 3D Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |