CN115375836A

CN115375836A - 基于多元置信度滤波的点云融合三维重建方法和***

Info

Publication number: CN115375836A
Application number: CN202210910035.3A
Authority: CN
Inventors: 贺飏; 张双力; 丛林; 王成
Original assignee: Hangzhou Yixian Advanced Technology Co ltd
Current assignee: Hangzhou Yixian Advanced Technology Co ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-22

Abstract

本申请涉及一种基于多元置信度滤波的点云融合三维重建方法和***，其中，该基于多元置信度滤波的点云融合三维重建方法包括：获取图像，根据各帧图像的RGB信息、位姿信息和对应的深度图，确定待融合深度观测的多元的置信度，并将多元的该置信度合并，得到合并置信度；对于每个观测，根据其对应的合并置信度，执行融合；并根据融合结果确定重建点，基于该重建点进行三维重建；通过本申请，解决了相关技术中对于AR大场景导航导览的三维重建，重建精度较低的问题，提高了AR大场景三维重建的精度。

Description

基于多元置信度滤波的点云融合三维重建方法和***

技术领域

本申请涉及三维重建技术领域，特别是涉及一种基于多元置信度滤波的点云融合三维重建方法和***。

背景技术

一直以来，稠密场景重建都是三维视觉的核心问题，在增强现实(AR)等应用中，扮演着重要角色。在AR应用中，要想实现真实、沉浸式的虚实融合体验，就需要正确处理真实场景和虚拟的AR物体之间的遮挡关系，并对阴影等效果做出正确的渲染，如此才能实现合理地放置虚拟内容、以及设置它和与真实场景的交互。概括来说，要想实现这些效果，都得对场景进行实时且精确的三维重建。

目前常用的三维重建方案如KinectFusion、BundleFusion等，非常依赖深度传感器提供的深度测量。但是，由于深度传感器价格昂贵、功耗也比较高，因此其普及程度依然较低，通常只有少数高端型号的移动设备才舍得配备。因此，使用单目多视角图像去实现实时三维重建，具有非常大的应用前景。在不增加传感器的前提下，它可直接用在现有智能设备中。

多视角立体视觉(Multiple-View-Stereo，简称MVS)是计算机领域的一项基础任务，目标是通过相机拍摄的图像和相机参数推导出现实环境中物体的三维信息。基本原理是，不同角度拍摄的图像会存在一些公共观测部分，合理分析并利用不同图像的2D关联是三维重建的基础。空间物3D坐标可以从2D-2D的三角恢复得到。主流的方案为，先基于系列图像及对应位姿，恢复每一帧深度图，再将所有的深度图通过点云融合算法得到稠密的点云三维模型。其中，深度图融合包括体素融合(代表为TSDF(truncated signed distancefunction))和点云融合。

TSDF是一种利用结构化点云数据并以参数表达表面的表面重建算法，核心是将点云数据映射到一个预先定义的三维立体空间中，并用截断符号距离函数表示真实场景表面附近的区域，在每个体素内都有一个隐式函数F，通过tsdf和权重来不断拟合，当所有点云附近的所有体素都完成拟合后，找到所有F为0的体素点，这些点云即可表示场景模型的表面点云。但是，对于应用于大尺度AR体验的三维重建而言，由于场景中含有大量不规则复杂(如曲折道路，植被覆盖，艺术雕塑等等)。需要构造的体素体十分巨大且离散。此外由于室外场景的景深往往变化巨大，很难用合理的截断参数来对每个像素的深度值进行处理。

开源的算法库colmap，openMVS都采用点云融合技术，其核心是将符合重投影误差的所有深度图反投影得到的3D点求平均值。图1是根据相关技术的经典开源算法库点云融合的示意图，如图1所示，通过观察沿射线的重建误差，可以看到这种方法往往导致极大的观测方向的重建误差。对于一般场景，可以较好的恢复。但是，使用含大深度范围、噪点较多、且含动态物体的深度图，结果往往不理想。

表一

表一是业界主流三维重建商业化软件，可以看出，市面上主流的三维重建软件主要还是面向航拍和物体级/室内的重建的。他们都具有合理的重建物深度范围，规划的相机采集轨迹，可控的图像帧数。可是对于AR大场景(百米级，千米级甚至以上)导航导览的三维重建，往往是使用大景深的图像，且局部采集不均匀，这些都对重建精度产生极大的挑战。

从重建精度而言，一般的深度融合算法，视觉深度恢复的图像离散点较多，融合成的模型有较大的不确定度，融合的模型往往含有飞点，从而无法被直接应用于网格化重建；现有的概率融合的方法REMODE，考虑匹配上1个像素的误差导致的深度不确定度的不同，但这种方法针对于多帧深度图融合成一个高置信度的深度图，无法直接重建稠密点云；基于深度学习隐式空间表达的方法，具有很好的重建完整度和精度，但是，目前学术前沿的工作，如NeuralRecon，主要针对室内场景研发，对于有较大纵深的室外场景，它的表现不佳，而且极其依赖GPU的算力和显存大小。

针对相关技术中，对于AR大场景导航导览的三维重建，重建精度较低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于多元置信度滤波的点云融合三维重建方法和***，以至少解决相关技术中，对于AR大场景导航导览的三维重建，重建精度较低的问题。

第一方面，本申请实施例提供了一种基于多元置信度滤波的点云融合三维重建方法，所述方法包括：

获取图像，根据各帧图像的RGB信息、位姿信息和对应的深度图，确定待融合深度观测的多元的置信度，并将多元的所述置信度合并，得到合并置信度；

对于每个观测，根据其对应的合并置信度，执行融合；并根据融合结果确定重建点；基于所述重建点进行三维重建。

在其中一些实施例中，所述执行融合，并根据融合结果确定重建点的过程包括：通过贝叶斯滤波将各组共视帧上的所述观测向参考帧融合，根据融合后点云分布的收敛性确定重建点。

在其中一些实施例中，确定合并置信度的过程包括：

根据图像参考帧和共视帧的位姿信息，确定待融合深度观测的几何置信度；根据图像RGB信息和所述参考帧和共视帧的位姿信息，确定待融合深度观测的纹理匹配置信度；根据基于图像RGB信息解算出的语义信息，确定待融合深度观测的语义置信度；

合并所述几何置信度、纹理匹配置信度以及语义置信度，得到合并置信度。

在其中一些实施例中，所述确定待融合深度观测的多元的置信度之前，所述方法包括：

遍历参考帧深度图的像素，得到第一像素，通过所述第一像素的深度值反投影，确定所述第一像素在参考帧坐标系下的目标点的坐标，得到第一坐标；

通过位姿变换，确定所述目标点在世界坐标系下的坐标，得到第二坐标；选取参考帧的其中一个未操作的共视帧，根据所述第二坐标，确定观测值。

在其中一些实施例中，所述观测值的确定过程包括：

根据所述第二坐标，通过位姿变换和投影方程，确定所述目标点在所述共视帧上的像素位置，得到第二像素；

通过所述第二像素的深度值反投影，确定所述第二像素在世界坐标系下的目标点的坐标，得到第三坐标；

根据所述第一坐标、第三坐标以及参考帧的光心，确定所述第三坐标对应的位置在参考帧的观测向量上的投影的坐标，并将结果作为所述观测值。

在其中一些实施例中，所述确定待融合深度观测的多元的置信度的过程包括：

确定所述待融合深度观测纹理匹配置信度，并用匹配标准差表示；

根据参考帧和共视帧的位姿信息，确定相对位姿的变换矩阵，并根据所述变换矩阵，确定参考帧的光心和共视帧的光心间的距离，得到光心距；

根据所述观测值的平方、参考帧相机内参的焦距、所述光心距，以及所述匹配标准差，确定几何置信度，并用几何标准差表示；

查询每个观测所属像素的语义类别标签，确定所述观测的语义置信度，其中，动态物体的观测对应的标准差为无穷大。

在其中一些实施例中，所述根据融合后点云分布的收敛性确定重建点的过程包括：

对于高斯分布，确定融合后的标准差是否小于预设阈值，若是，则判定为收敛；如果收敛，则根据高斯分布的平均值，确定世界坐标系下的重建点，并标记对应共视帧的合并位置；

如果未收敛，则继续选取参考帧的其中一个未操作的共视帧，确定观测值并进行融合，直至所述参考帧下所有共视帧均已被执行操作。

第二方面，本申请实施例提供了一种基于多元置信度滤波的点云融合三维重建***，所述***包括：

确定模块，用于获取图像，根据各帧图像的RGB信息、位姿信息和对应的深度图，确定待融合深度观测的多元的置信度，并将多元的所述置信度合并，得到合并置信度；

融合模块，用于对于每个观测，根据其对应的合并置信度，执行融合；并根据融合结果确定重建点；基于所述重建点进行三维重建。

第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述基于多元置信度滤波的点云融合三维重建方法。

第四方面，本申请实施例提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述基于多元置信度滤波的点云融合三维重建方法。

相比于相关技术中，对于AR大场景导航导览的三维重建，重建精度较低的问题，本申请实施例通过获取图像，根据各帧图像的RGB信息、位姿信息和对应的深度图，确定待融合深度观测的多元的置信度，并将多元的该置信度合并，得到合并置信度；对于每个观测，根据其对应的合并置信度，执行融合；并根据融合结果确定重建点，基于该重建点进行三维重建；由于本申请考虑了置信度影响，重建精度有了较好保障，解决了相关技术中对于AR大场景导航导览的三维重建，重建精度较低的问题，提高了AR大场景三维重建的精度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据相关技术的经典开源算法库点云融合的示意图；

图2是根据本申请实施例的基于多元置信度滤波的点云融合三维重建方法的应用环境示意图；

图3是根据本申请第一实施例的基于多元置信度滤波的点云融合三维重建方法的示意图；

图4是根据本申请第二实施例的确定待融合深度观测的置信度的前序步骤的示意图；

图5是根据本申请第二实施例的3D点融合参数化为射线上的1D观测值方法的几何示意图；

图6是根据本申请第三实施例的确定合并置信度的过程的示意图；

图7是根据本申请第三实施例的点云融合三维重建模型的传输过程的示意图；

图8是根据本申请第四实施例的根据融合后点云分布的收敛性确定重建点的过程的示意图；

图9是根据相关技术的colmap AR大场景三维重建效果的示意图；

图10是根据本申请实施例的AR大场景三维重建效果的示意图；

图11是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的基于多元置信度滤波的点云融合三维重建方法，可以应用于如图2所示的应用环境中，图2是根据本申请实施例的基于多元置信度滤波的点云融合三维重建方法的应用环境示意图，如图2所示，终端202与服务器204通过网络进行通信。服务器204通过终端202获取图像，服务器204根据各帧图像的RGB信息、位姿信息和对应的深度图，确定待融合深度观测的多元的置信度，并将多元的置信度合并，得到合并置信度；对于每个观测，服务器204根据其对应的合并置信度，执行融合；并根据融合结果确定重建点，基于该重建点进行三维重建。其中，终端202可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器204可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请提供了一种基于多元置信度滤波的点云融合三维重建方法，能够进行AR大场景的高精度点云融合，图3是根据本申请第一实施例的基于多元置信度滤波的点云融合三维重建方法的示意图，如图3所示，该流程包括如下步骤：

步骤S301，获取图像，根据各帧图像的RGB信息、位姿信息和对应的深度图，确定待融合深度观测的多元的置信度，并将多元的该置信度合并，得到合并置信度；

例如，输入为每一帧图像的位姿信息，及其对应的深度图，输出为场景点云重建，中间过程中，会求解以下三个置信度：第一，利用参考帧和共视帧的位姿信息求解一个待融合深度观测的几何置信度，第二，利用RGB图像信息和参考帧和共视帧的位姿信息来求解一个待融合深度观测的纹理匹配置信度，第三，利用RGB图像信息解算的语义信息来得到语义置信度；对每一个待融合观测，本算法对以上置信度进行合并，得到一个合并置信度，使得每一个观测含有一个深度值，和一个置信度值(或者不确定度值)；

步骤S302，对于每个观测，根据其对应的合并置信度，执行融合；并根据融合结果确定重建点；基于该重建点进行三维重建；

可选的，可以通过贝叶斯滤波将各组共视帧上的所述观测向参考帧融合，根据融合后点云分布的收敛性确定重建点，最终融合的结果使得每个融合的3D点云都可以用概率分布来表示，而通过分布的收敛性可以判定哪些是高质量的重建点，哪些是离散的外点，这样保证了重建精度。

通过上述步骤S301至S302，相对于相关技术中对于AR大场景导航导览的三维重建，重建精度较低的问题，本申请实施例通过获取图像，根据各帧图像的RGB信息、位姿信息和对应的深度图，确定待融合深度观测的多元的置信度，并将多元的该置信度合并，得到合并置信度；对于每个观测，根据其对应的合并置信度，执行融合；并根据融合结果确定重建点，基于该重建点进行三维重建；由于本申请考虑了置信度影响，重建精度有了较好保障，解决了相关技术中对于AR大场景导航导览的三维重建，重建精度较低的问题，提高了AR大场景三维重建的精度。

在其中一些实施例中，所述确定待融合深度观测的多元的置信度之前，所述方法还包括，选取融合先验、选取共视帧，以及确定待融合点的观测值，图4是根据本申请第二实施例的确定待融合深度观测的置信度的前序步骤的示意图，如图4所示，该流程包括如下步骤：

步骤S401，遍历参考帧深度图的像素，得到第一像素，通过该第一像素的深度值反投影，确定该第一像素在参考帧坐标系下的目标点的坐标，得到第一坐标；

例如，遍历参考帧ref深度图的像素(u，v)，确定像素(u，v)对应的深度值depth，根据公式1，将该深度值反投影到参考帧坐标系下的3D点X_ref；

步骤S402，通过位姿变换，确定该目标点在世界坐标系下的坐标，得到第二坐标；

例如，根据公式2，通过相机位姿T_w-ref变换到世界坐标系得到3D点X_w；

X_w＝T_w-ref*X_ref＝T_w-ref*π^-1(u，v，depth) 公式2

步骤S403，选取参考帧的其中一个未操作的共视帧，根据该第二坐标，通过位姿变换和投影方程，确定该目标点在该共视帧上的像素位置，得到第二像素；

例如，选取参考帧ref的一个未操作的共视帧src，执行以下步骤S303至S305操作；将该3D点X_w，通过位姿T_src-w变换到该共视帧src的坐标系下，并根据公

式3，通过投影方程拿到其在共视帧上的像素位置(u’，v’)；

步骤S404，通过该第二像素的深度值反投影，确定该第二像素在世界坐标系下的目标点的坐标，得到第三坐标；

例如，根据公式4，通过像素位置(u’，v’)取该像素在共视帧的深度值d_src；

d_src＝depth Map_src(u′，v′) 公式4

根据公式5，由d_src计算深度值反投影到世界坐标系得到3D点X_src；

X_src＝T_w-src*π^-1(u′，v′，d_src) 公式５

步骤S405，根据该第一坐标、第三坐标以及参考帧的光心，确定该第三坐标对应的位置在参考帧的观测向量上的投影的坐标，并将结果作为该观测值；

例如，当前参考帧上的观测向量可以由(X_ref-C_ref)表示，其中C_ref代表参考帧的光心；当前共视帧上的观测向量可以由(X_src-C_ref)表示；根据公式6，求解两个向量的夹角；

最后根据公式7，把共视帧上计算的3D位置投影到参考帧上的观测向量(X_ref-C_ref)，并把结果作为后验观测值d_obs；

d_obs＝|X_src-C_ref|*cos(θ) 公式7

在其中一些实施例中，图5是根据本申请第二实施例的3D点融合参数化为射线上的1D观测值方法的几何示意图，如图5所示，本申请实施例将要融合的3D点位置建模为该参考帧的观测向量上的分布，这样一个三维分布的问题，变换为了一个一维分布问题，极大地简化了问题的计算复杂度，极大地提升了运算效率。另外，可以用高斯分布表达该分布，这样用两个参数平均值和方差就可以代表分布，见公式8；

N(x|μ_k，σ²) 公式8通过选择合理的误差分布假设，如高斯分布，可以极大地加速运算；当然，也可以用其它分布来代替以上提的高斯分布模型，如混合高斯模型，Beta-Gaussian混合模型，Uniform-Gaussian混合模型。

具体的，图6是根据本申请第三实施例的确定合并置信度的过程的示意图，如图6所示，该过程包括如下步骤：

步骤S601，根据图像RGB信息和所述参考帧和共视帧的位姿信息，确定待融合深度观测的纹理匹配置信度；

纹理匹配置信度可以用不同的方式，甚至深度学习的方法，只要能表征该像素局部的纹理能较丰富能定性提供可匹配性即可，例如，对于纹理匹配置信度，用匹配标准差e_d来表示，以下求解e_d：

参考帧和共视帧上的一对匹配点x，x’，符合对极几何约束，根据公式9，可以用基础矩阵F来表示；

x*F*x′＝0 公式9

根据公式10，通过基础矩阵求解在参考帧上的对极线1；

l＝F^Tx′ 公式10

对极线可以分解其方向，在参考帧上的匹配点必然在对极线上，这就是对极几何约束。如果该匹配点在对极线上的纹理的梯度方向和对极线一致，就可以找到较好的匹配精度。但是，一旦这两个方向垂直，匹配精度就会很差。可以根据公式11和公式12，用sobel算子分别计算图像I在x和y方向的梯度Gx和Gy；

根据公式13，从x和y方向的梯度Gx和Gy来计算梯度的幅度G；

根据公式14和公式15，计算梯度的反向；

α＝atan(l_y/l_x) 公式14

β＝atan(G_y/G_x) 公式15

通过梯度方向和极线方向，根据公式16，定义该观测的纹理匹配标准差e_d；可以看出，对于梯度方向和对极线方向较一致的情况，标准差可以控制在较低的值，且梯度的幅度G越大，标准差越小；对于梯度方向和对极线方向偏向垂直的情况，我们赋一个较大的值，这里我们设为10，代表10个像素的匹配误差；

步骤S602，根据图像参考帧和共视帧的位姿信息，确定待融合深度观测的几何置信度；例如，对于几何置信度，用几何标准差e_z来表示，以下求解e_z：

根据公式17，对于参考帧和共视帧，可以通过他们的位姿求解相对位姿；

T_ref-src＝T_ref-w ^*(T_src-w)^-1 公式17

根据公式18，从相对位姿的4*4变换矩阵的最后一列，可以拆解一个3维向量来求其模长，即基线长度b；基线长度也是参考帧和共视帧俩光心之间的距离；

b＝||T_ref-src[：，3]|| 公式18

根据公式19，求解几何标准差e_z，其中f为参考帧相机内参的焦距；

从公式19可以看出，几何标准差与观测的距离的平方(d_obs的平方)正相关，说明越远的点重建精度越差；几何标准差与基线长度b负相关，越大的基线，更能较好地三角化出3D位置；几何标准差与参考帧相机内参的焦距f负相关，说明分辨率越高的图像越能重建精细；最后，几何标准差与上一步计算的匹配标准差e_d正相关，这样公式19便将纹理匹配置信度和几何置信度融合在了一起；

步骤S603，根据基于图像RGB信息解算出的语义信息，确定待融合深度观测的语义置信度；其中，语义分割(semantic segmentation)是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的，例如，属于人的像素都要分成一类，属于墙面的像素也要分成一类，除此之外还有电梯像素也被分为一类；目前基于深度学习的语义分割技术可以较高的精度和可控的计算代价对场景进行分割处理；

例如，对于语义信度，用最后的融合标准差ef来表示，以下求解ef：

对共视帧的RGB图像计算语义图，语义图的求解不依赖特定方法，目前现有的最新方案均可适用，可选的，可以用深度学习经典的FCN(Fully Convolutional Networks)计算；计算得的语义图和图像有同样的分辨率，可以根据公式20，通过像素位置(u’，v’)来查询所属的语义类别标签label；

label＝sematicMap(u′，v′) 公式20

语义类别标签是一个整数值，它与唯一的语义信息绑定；可以将所有的语义类别标签分为两类，即静态物体static，动态物体类dynamic；比如：人、车、飞机属于动态物体；墙、地面、建筑物等属于静态物体；

根据公式21，通过查询每个观测所属像素的语义类别标签，可以赋予该观测语义置信度值，对于属于静态物体的观测，继承之前的标准差；对于属于动态物体的观测，赋予它一个无穷大的标准差，不予融合；

步骤S604，合并所述几何置信度、纹理匹配置信度以及语义置信度，得到合并置信度。

通过步骤S601至S604，在相关技术中，AR大场景的场所往往有大量的动态物体，如行人、汽车等，而现有的商业软件技术均没有考虑这些动态物体的影响，本申请实施例从三维重建的纹理置信度、语义置信度和几何置信度多个方面建模，提出了一种基于多元置信度的融合方法，该方法能够有效的应对不同场景，尤其是AR大场景应用所需的复杂场景，例如商场、公园等。

在其中一些实施例中，图7是根据本申请第三实施例的点云融合三维重建模型的传输过程的示意图，如图7所示，基于多元置信度滤波的点云融合三维重建模型的传输过程包括，输入相机姿态和RGB图像，以及待融合的深度图，从而确定几何置信度、匹配置信度、语义置信度，并进行多置信度融合，最终输出场景点云重建。

在其中一些实施例中，图8是根据本申请第四实施例的根据融合后点云分布的收敛性确定重建点的过程的示意图，如图8所示，该流程包括如下步骤：

步骤S801，对于高斯分布，确定融合后的标准差是否小于预设阈值，若是，则判定为收敛；

例如，在得到观测值和融合的观测标准差之后，对于高斯分布，可以用公式22进行融合；

如果融合后的标准差小于阈值，判定它为收敛，从而停止迭代更新；

步骤S802，如果收敛，则根据高斯分布的平均值，确定世界坐标系下的重建点，并标记对应共视帧的合并位置；如果未收敛，则继续选取参考帧的其中一个未操作的共视帧，确定观测值并进行融合，直至该参考帧下所有共视帧均已被执行操作；

例如，如果收敛，则将当前高斯分布的平均值代入公式23，得到一个世界坐标系下的重建点X_new；

X_new＝T_w-ref*π^-1(u，v，μ′) 公式23

最终的重建点云由所有的经过上述步骤的重建点构成；另一方面，如果融合后的标准差大于阈值，则继续搜索其它共视帧，继续按照一样的方式，确定出新的观测值和融合的观测标准差，持续迭代融合。

本申请能更好地适用于含大深度范围、噪点较多、且含动态物体的深度图，本申请实施例还提供了相关技术中的colmap重建效果和本申请的重建效果的对比，图9是根据相关技术的colmapAR大场景三维重建效果的示意图，图10是根据本申请实施例的AR大场景三维重建效果的示意图，如图9和图10所示，可以看到用colmap产生的重建，存在较为明显的沿射线的重建误差，本申请技术方案产生的重建，效果更好。

以下将本申请技术方案与相关技术中的其它方案相比较，以说明本申请实施例具有高质量、低内存耗占、高时效等优点：

第一，从重建精度而言，一般的深度融合算法，视觉深度恢复的图像离散点较多，融合成的模型有较大的不确定度，融合的模型往往含有飞点，从而无法被直接应用于网格化重建，本申请实施例从多方面考虑置信度的影响，能够去除发散的离散点、能够去除行人等动态物体，重建精度也有了较好保障，并且融合重建方法适用于AR大场景的重建，也兼容其它重建场景；

第二，对比体素融合的方法，视觉深度的深度距离范围较大，如果用TSDF的方法，需要的体素体过多，这意味着极高的内存消耗，而且不同场景的差异巨大，很难用一个合适的体素体分辨率来表征重建的场景，并且，传统的方法需要将每个深度图像都加载到内存，进行融合，对于AR大场景，往往有上万张百万(甚至千万)分辨率的待融合深度图，内存消耗级大；本申请实施例的算法相对TSDF方案更小的内存耗占，可以部署在云服务器上，由于其计算轻量性和内存低耗占性，亦可部署到移动端上；

第三，对比现有的概率融合的方法REMODE，考虑匹配上1个像素的误差导致的深度不确定度的不同，但这种方法针对于多帧深度图融合成一个高置信度的深度图，无法直接重建稠密点云；本申请实施例的算法针对图像恢复深度图的点云融合，如果深度图是其它传感设备采集的(如ToF相机)，亦可兼容；需要说明的是，本申请实施例适用于不依赖额外深度传感器的场景，在不增加传感器的前提下，该技术方案可直接用在现有智能设备中；并且本申请实施例亦可兼容适用深度传感器采集的数据；

第四，对比基于深度学习隐式空间表达的方法，深度学习方法具有很好的重建完整度和精度，但是，目前学术前沿的工作，如Neural Recon，主要针对室内场景研发，对于有较大纵深的室外场景，它的表现不佳，而且极其依赖GPU的算力和显存大小；本申请实施例的算法不依赖GPU等特定设备支持，首次从纹理匹配、几何、语义三个方面构造置信度统一模型，并提出了一种置信度融合的方式，即以滤波的方式融合，极大地提升了运算效率；同时，将三维的点云观测量整合至一维，极大地简化了问题的计算复杂度，极大地提升了运算效率，并且，通过选择合理的误差分布假设，如高斯分布，进一步提升了运算效率。

结合上述实施例中的基于多元置信度滤波的点云融合三维重建方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种基于多元置信度滤波的点云融合三维重建方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多元置信度滤波的点云融合三维重建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图11是根据本申请实施例的电子设备的内部结构示意图，如图11所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图11所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作***、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作***和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种基于多元置信度滤波的点云融合三维重建方法，数据库用于存储数据。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多元置信度滤波的点云融合三维重建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述执行融合，并根据融合结果确定重建点的过程包括：通过贝叶斯滤波将各组共视帧上的所述观测向参考帧融合，根据融合后点云分布的收敛性确定重建点。

3.根据权利要求2所述的方法，其特征在于，确定合并置信度的过程包括：

4.根据权利要求3所述的方法，其特征在于，所述确定待融合深度观测的多元的置信度之前，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述观测值的确定过程包括：

6.根据权利要求5所述的方法，其特征在于，所述确定待融合深度观测的多元的置信度的过程包括：

7.根据权利要求6所述的方法，其特征在于，所述根据融合后点云分布的收敛性确定重建点的过程包括：

8.一种基于多元置信度滤波的点云融合三维重建***，其特征在于，所述***包括：

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于多元置信度滤波的点云融合三维重建方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的基于多元置信度滤波的点云融合三维重建方法。