CN117635801A

CN117635801A - 基于实时渲染可泛化神经辐射场的新视图合成方法及***

Info

Publication number: CN117635801A
Application number: CN202311694564.5A
Authority: CN
Inventors: 方力; 黎雅诗; 胡飞; 叶龙
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-01

Abstract

本发明提供一种基于实时渲染可泛化神经辐射场的新视图合成方法及***，其中的方法包括：构建基于图像块空间特征相似性的可泛化神经辐射场算法网络模型；其中，所述可泛化神经辐射场算法网络模型通过图像块的空间特征的相似性引入输入图像的全局信息；通过数据采集设备采集的数据对可泛化神经辐射场算法网络模型进行训练；其中，所述数据包括现实世界场景的图像、深度和运动数据；利用训练好的可泛化神经辐射场算法网络模型进行自由视点视频的新视图合成。应用本发明可以适应不同的场景和任务，加速三维场景重建过程、提高渲染质量，提供更精细的视觉效果，并且可以减少不必要的计算资源消耗。

Description

基于实时渲染可泛化神经辐射场的新视图合成方法及***

技术领域

本发明涉及新视图合成技术领域，更为具体地，涉及一种基于实时渲染可泛化神经辐射场的新视图合成方法及***。

背景技术

随着数字多媒体技术不断发展，人们对视频质量和内容的要求越来越高，并且越来越关注视频的交互和视觉感官体验，在线文娱行业的爆棚式发展，也让行业本身更加审视在交互体验上的突破价值。在此基础上，人们在不断探索更优质的视觉体验：图像质量层面上，视觉媒体从标清、高清发展到4K超高清、8K超高清；交互性层面上，从2D发展到3D、4D，自由视点视频即为多媒体交互发展的方向之一。

自由视点视频是一种动态与静态视角相结合的视频，从视觉的观看角度和交互的空间维度层面看，全景范围视点的自由移动能让观众拥有更大的主动权、得到更好的沉浸体验，允许观众灵活选择观看角度和位置而无需受限于内容创作者控制的视角，在公共安全、医疗卫生、自动驾驶、文化娱乐、电子商务等众多领域应用广泛，从而使其成为虚拟现实中的重要研究领域。其中，如何高效建模及渲染出高质量自由视点视频成为了众多学者的研究方向。

自由视点视频主要有两种制作方式，分别是基于图像的新视图合成和基于模型的三维重建。其中，基于图像的新视图合成方法因具有照片级的真实感、更强的沉浸感成为研究热点之一。新视图合成属于计算机视觉和计算机图形学相结合领域的任务，是指从给定的源图像及其相机姿态渲染生成具有任意目标相机姿态的目标图像。但是，新视图合成是一个欠定问题，如果不考虑先验或约束条件会存在多个解，一个良好的方案需要对看不见的视图中的所有可见物体有完整的三维理解，需要处理场景中的遮挡、缺乏纹理的表面等复杂情况。因此，传统的自由视点视频生成技术通常需要大量计算资源和时间以及复杂的处理步骤，才能生成高质量的自由视点视频。存在处理速度慢、成本高、难以实现实时互动等诸多问题。

随着深度学习在图像理解任务方面的发展，使用基于深度学习的方法可以很好地由二维图像构建出三维场景的信息，涌现了很多基于深度学习的、与传统方法相结合的新视图合成方法，比如NeRF(Neural Radiance Fields，神经辐射场)。

NeRF首次使用隐式表示实现照片级的新视图合成效果，用MLP(MultilayerPerceptron，多层感知机)拟合一个连续函数来隐式地学习一个静态三维场景，将三维空间点坐标和观察方向输入该函数得到对应的颜色和体积密度，使用可微的神经体渲染得到像素颜色。NeRF仅利用输入图像作为监督信息，为高分辨率的几何形状拟合出准确的隐函数，能对复杂场景实现照片级真实感的新视图合成，该算法的整体流程如图1所示，输入大量不同视角的视图，构建出该三维模型的神经辐射场，最后渲染出指定视角的视图。

NeRF使用体渲染的方法，将渲染步骤加入到神经网络中，以达到直接由渲染图像的误差直接对网络进行训练的目的。图2示出了NeRF的可微渲染流程，如图2所示，NeRF拟合的是一个五维的向量函数，该函数用于描述三维模型的几何信息及颜色信息，使用多层感知机实现。该五维函数的输入由空间中点的三维坐标向量x＝(x,y,z)和二维视角方向向量d＝(θ,φ)构成，函数输出是空间中的该点的体密度б和该点沿d方向的颜色c＝(r,g,b)。在真实世界中，物体颜色与光照条件有关，从不同视角观察同一物体的同一位置时会观察到不同的颜色，所以在具体计算中，б仅与坐标向量x有关，c由x及d共同决定。对于图像中的每一个像素都建模出一根与之对应的光线，这根光线由相机光心o发出，光线记为r＝o+td，得到该光线上所有空间点的б和c后通过体渲染的方式渲染出对应像素。

但是，NeRF学习到的函数表达只针对单一场景，存在泛化性差、只针对静态场景、需要输入大量多视角图片、训练和推断速度慢等问题，难以对任意场景实时地生成自由视点视频。

因此，如何构建能够支持泛化到任意未见静态场景的网络以及实现新视图的渲染速度达到实时，成为目前自由视点视频的新视图合成技术领域的研究方向之一。

发明内容

鉴于上述目前传统的自由视点视频生成技术中存在的处理速度慢、成本高、难以实现实时互动等问题，本发明的目的是提供一种基于实时渲染可泛化神经辐射场的新视图合成方法及***，以构建支持泛化到任意未见静态场景的网络以及实现新视图的渲染速度达到实时。

一方面，本发明提供的一种基于实时渲染可泛化神经辐射场的新视图合成方法，包括：

S100：构建基于图像块空间特征相似性的可泛化神经辐射场算法网络模型；其中，所述可泛化神经辐射场算法网络模型通过图像块的空间特征的相似性引入输入图像的全局信息；

S200：通过数据采集设备采集的数据对所述可泛化神经辐射场算法网络模型进行训练；其中，所述数据采集设备采集的数据包括现实世界场景的图像数据和运动数据；

S300：利用训练好的可泛化神经辐射场算法网络模型进行自由视点视频的新视图合成。

其中，可选的方案是，所述可泛化神经辐射场算法网络模型包括：

2D特征提取模块，用于提取输入图像的多尺度二维特征；

3D特征提取模块，用于通过所述多尺度二维特征构建代价体，通过UNet-3D提取代价体的深度概率体和三维特征体；

采样指导模块，用于基于所述深度概率体对空间中的采样点进行筛选，以保留满足预设深度概率要求的采样点；

神经辐射场模块，用于通过预设的MLP网络，利用保留采样点的多尺度二维特征和三维特征体，计算出目标图像的低分辨率目标图像特征；

上采样模块，用于基于所述低分辨率目标图像特征上采样生成所述输入图像的高分辨率目标图像特征，并基于所述高分辨率目标图像特征渲染得到高分辨率图像。

其中，可选的方案是，所述2D特征提取模块提取多尺度二维特征的方法包括：从大小为3×H×W的输入图像中，下采样提取得到大小为32×/>的2D低分辨率图像特征F_i,1，然后使用双线性插值对所述2D低分辨率特征F_i,1的特征图进行上采样，得到大小为/>的2D特征F_i,2；其中，H表示输入图像的高度，W表示输入图像的宽度，N表示输入图像的数量，i表示N张图像中的第i张。

其中，可选的方案是，所述2D特征提取模块还包括三维映射单元，用于将空间中的三维点映射到所述输入图像的2D特征F_i,2上，得到像素对齐的特征{f_i|i＝1,...,N}；以及，将在不同输入视图上的像素对齐的特征聚合起来再经过池化操作得到所述三维点的图像特征f_img＝ψ(f₁,...,f_N)。

其中，可选的方案是，所述3D特征提取模块通过所述多尺度二维特征构建代价体，包括：

利用所述2D特征F_i,2，通过可微的单应变化基于目标视图的相机视锥体构建代价体；其中，N张输入图像投影至若干个采样平面上{L_j|j＝1,...,D}，其中，D为采样平面的数量，j表示D个采样平面中的第j个，通过将所述2D特征F_i,2映射到D个采样平面上得到构建的代价体；其中，

给定输入视图Ii的相机内参矩阵K_i、旋转矩阵R_i、平移矩阵T_i和目标视图It的相机内参矩阵K_t、旋转矩阵R_t、平移矩阵T_t，所述单应变化定义为：

其中，a^T代表目标视图相机主轴a的转置矩阵，I是单位矩阵，H_i(z)将目标视图中的像素(u,v)在深度轴上投影到目标视图上，经过单应变化得到的特征值定义为：

基于单应变化后的映射特征，通过计算每个体素的多视图特征的方差得到代价体，其中，[u,v,1]^T表示[u,v,1]的转置矩阵。

其中，可选的方案是，所述3D特征提取模块在提取所述代价体的三维特征体之后，还包括：对三维特征体进行三线性插值得到具有空间几何信息的体素对齐特征f_voxel。

其中，可选的方案是，所述神经辐射场模块通过预设的MLP网络计算出所述多尺度二维特征和所述三维特征体中的低分辨率目标图像特征，包括：

将所述三维点的2D特征和3D特征输入到预设的MLP网络中，得到所述三维点的点特征和体密度，定义为：

f_p,σ＝φ(f_img,f_voxel)

其中，φ为MLP网络，f_p为所述三维点的点特征，σ为所述三维点的体密度，由所述三维点的点特征f_p、所述三维点的图像特征f_img以及在输入视图下目标视图中三维点的相对观察方向预测输入视图图像颜色的混合权重w_i，再由混合权重w_i预测从目标视图的某一方向观看三维点时所观察到的颜色特征，定义为：

其中，f_i为输入视图的二维图像特征，将所述颜色特征和体密度σ进行2D聚合得到每根光线最终的累积颜色特征。

其中，可选的方案是，基于所述低分辨率目标图像特征上采样生成所述输入图像的高分辨率目标图像特征，包括：通过对所述低分辨率目标图像特征进行亚像素卷积的图像特征上采样操作，生成所述输入图像的高分辨率目标图像特征。

其中，可选的方案是，所述采样指导模块进一步包括：

一级筛选单元，用于对于目标图像中的像素点(u,v)通过对深度概率体线性插值得到所述像素点在某一深度平面上的概率及标准差，由此得到所述深度概率体表面存在的深度范围，以根据所述深度范围跳过空间中的空白区域，缩小采样范围；

二级筛选单元，用于利用所述深度概率体的累积密度函数在缩小的采样范围内指导精确采样，以筛选出保留采样点。

本发明还提供一种基于实时渲染可泛化神经辐射场的新视图合成***，基于如前所述的基于实时渲染可泛化神经辐射场的新视图合成方法进行自由视点视频的新视图合成，包括：

网络模型构建单元，用于构建基于图像块空间特征相似性的可泛化神经辐射场算法网络模型；其中，所述可泛化神经辐射场算法网络模型通过图像块的空间特征的相似性引入输入图像的全局信息；

网络模型训练单元，用于通过数据采集设备采集的数据对所述可泛化神经辐射场算法网络模型进行训练；其中，所述数据采集设备采集的数据包括现实世界场景的图像数据和运动数据；

新视图合成单元，用于利用训练好的可泛化神经辐射场算法网络模型进行自由视点视频的新视图合成。

本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的基于实时渲染可泛化神经辐射场的新视图合成方法中的步骤。

从上面的技术方案可知，本发明提供的基于实时渲染可泛化神经辐射场的新视图合成方法及***，通过采用基于图像块的实时渲染可泛化神经辐射场，从数据采集、网络模型、引擎渲染三个角度，对自由视点视频的生成方式进行了改进，使用新视图合成技术来制作自由视点视频，将动态场景按帧拆分，实现了可泛化、可实时渲染的神经辐射场算法，构建了支持泛化到任意未见静态场景的网络以及实现新视图的渲染速度达到实时，从而以更高效、更实时的方式生成自由视点视频，消除了传统方法中的复杂计算和时间延迟问题，为虚拟现实、游戏开发、直播等领域提供更出色的用户体验。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为神经辐射场的算法流程示意图；

图2为神经辐射场的可微渲染流程示意图；

图3为根据本发明实施例的基于实时渲染可泛化神经辐射场的新视图合成方法的流程示意图；

图4为根据本发明实施例的基于图像块空间特征相似性的可泛化神经辐射场算法网络模型的框架结构示意图；

图5为根据本发明实施例的基于图像块空间特征相似性的可泛化神经辐射场算法网络模型的数据训练流程示意图；

图6为根据本发明实施例的电子设备的示意图。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

针对现有的，本发明提供一种基于实时渲染可泛化神经辐射场的新视图合成方法及***。为了更好地说明本发明的技术方案，下面先对本发明中所涉及的部分技术术语进行简单说明。

神经辐射场：神经辐射场(Neural Radiance Fields，简称NeRF)是一种计算机视觉技术，用于生成高质量的三维重建模型。它利用深度学习技术从多个视角的图像中提取出对象的几何形状和纹理信息，然后使用这些信息生成一个连续的三维辐射场，从而可以在任意角度和距离下呈现出高度逼真的三维模型。NeRF技术在计算机图形学、虚拟现实、增强现实等领域有着广泛的应用前景。

多层感知机：多层感知机(Multi-Layer Perceptron，简称MLP)是一种基本的神经网络架构，用于深度学习任务。MLP由多个层组成，每一层由神经元(或称为节点)组成，这些神经元通常采用前馈(feedforward)方式连接，每个神经元将接受上一层神经元的输出并将其传递给下一层。

体积密度：在NeRF中体积密度是指在三维空间中每个点的密度值，这个密度值用于表征给定点处是否存在场景中的物体或表面，可以看作用来衡量某点处存在实际物体的概率。

深度概率体(Depth Probability Volume，简称DPV)：是基于cost volume得到的像素点的深度概率分布，cost volume是多视图图像中用来存储多视图各自像素的匹配程度，是一个B×C×D×H×W大小的tensor。DPV的维度也是B×C×D×H×W，存储的是各像素的深度概率信息。

本发明提供的基于实时渲染可泛化神经辐射场的新视图合成方法及***，采用基于图像块的实时渲染可泛化神经辐射场，从以下三个角度对新视图的合成方式进行了改善：

1.数据采集设备：通过相机等设备引入高效的现实世界场景的图像，能够捕捉现实世界场景的图像数据和运动数据；

2.网络模型：设计和训练高度优化的神经网络模型，能够将采集到的数据转化为三维神经辐射场，而无需大量计算资源；

3.渲染引擎：开发由上采样模块和可微的表面渲染方法构成的实时渲染引擎，以深度学习的方式学习出场景的隐式表示，然后通过实时渲染引擎渲染出该场景，从而能够利用生成的神经辐射场，实时呈现具有高质量细节和自由视点效果的视频。

以下将结合附图和具体实施例对本发明的技术方案进行详细描述。

需要说明的是，以下示例性实施例的描述实际上仅仅是说明性的，不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

为了说明本发明提供的基于实时渲染可泛化神经辐射场的新视图合成方法及***、方法，图3、图4对本发明实施例的基于实时渲染可泛化神经辐射场的新视图合成方法及基于图像块空间特征相似性的可泛化神经辐射场算法网络模型的框架结构进行了示例性标示。

如图3和图4共同所示，本发明提供的基于实时渲染可泛化神经辐射场的新视图合成方法主要包括如下步骤：

S100：构建基于图像块空间特征相似性的可泛化神经辐射场算法网络模型；其中，所述可泛化神经辐射场算法网络模型通过图像块的空间特征的相似性引入输入图像的全局信息。

其中，图像的全局信息是指图像的整体属性，例如颜色特征、纹理特征、形状特征等，全局信息描述不适用于存在混叠、遮挡等情况；而局部信息则是从图像局部区域中抽取的特征信息，特征信息间的相关度较小，遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配。

S200：通过数据采集设备采集的数据对所述可泛化神经辐射场算法网络模型进行训练；其中，所述数据采集设备采集的数据包括现实世界场景的图像数据和运动数据。

具体的，作为示例，现实世界场景的运动数据可以通过COLMAP获取，将捕捉到的现实世界场景的图像数据输入到COLMAP中，即可获取对应的相机内参、外参、深度和运动等数据。

为了构建支持泛化到任意未见静态场景的网络以及实现新视图的渲染速度达到实时，本发明首先需要构建一个基于图像块空间特征相似性的可泛化神经辐射场算法网络模型。

NeRF通过编码体密度和颜色，完成拟合场景的新视图合成，但其本质是对该场景的几何信息、颜色信息的过拟合，依靠网络记忆呈现出场景，所以不具备推广到新场景的能力。为了解决泛化性问题，有不少方法引入图像特征，利用卷积提取输入图像的特征，从而产生更丰富的且通用的场景表示。

目前基于多视图重建的方案是解决泛化性问题的方法之一。多视图立体视觉(Multiple View Stereo，MVS)是对立体视觉的推广，能够在多个视角观察和获取三维场景的图像，并完成匹配和深度估计。基于深度学***面扫描算法来生成代价体(cost volume)，平面扫描算法的核心是验证深度假设，将像素投影到空间中不同平面之后，如果其中一个投影点被具有类似光度的不同相机捕获，那么该点的深度值是有效的，依照这种方法将深度间隔划分为离散值，在所有假设中选择最有效的深度来估计最终深度。通过这种方法一方面可以估计场景中的深度信息，另一方面可以实现泛化性，给定一个空间中的三维点，将其投影到各输入视图上，通过判断各视图上的局部特征是否一致来确定体密度，可以学习到空间点和输入视图的映射关系，故能推广到任意新场景。

在相机成像的过程中，所获得的图像数据是对图像进行了离散化处理，由于感光元件本身的限制，成像面上每个像素只代表附近的颜色，宏观上像素点是相邻的，微观上两个像素点间仍存在一定距离，存在于两个实际物理像素点之间的像素称为亚像素。

亚像素算法是用于提高图片分辨率的一种方法，但是亚像素卷积层没有包含非线性操作，直接利用低分辨率图像的特征图中的数据产生高分辨率图像。假设放大倍数为r，如果使用传统插值方法实现尺寸放大操作，卷积层的计算发生在高分辨率空间，会增长r²倍的计算量。如果采用反卷积网络，每一个输入像素都会与反卷积核元素相乘相加，叠加得到最终结果，计算更加复杂。由于反卷积核在滑动过程中存在跨度r，结果中部分像素点上比其他位置累加了更多的次数，容易产生棋盘状噪声，影响图像边缘及细节信息。因此本发明中采用亚像素卷积层既能保证速度，又能有更好的图像超分辨率生成效果。

神经辐射场应用于动态场景有两种做法，一种是动态NeRF，除了视角、图像相关的信息外还需额外输入时间维度的信息；另一种是跨场景泛化NeRF，也就是将动态场景按帧拆分，将每帧图像作为一个单独的场景进行合成。本发明采用的就是第二种方法。

本发明基于图像块空间特征相似性的神经辐射场算法，以图像块的方式进行处理，可以通过空间特征的相似性引入全局信息。图像块是深度学习中的patch，当需要处理的图像分辨率太大而资源受限(比如显存、算力等)时，就可以将图像划分成一个个小块，这些小的图像块就是patch。本发明中以图像块的方式，区别于原始NeRF的逐光线处理的方式，假设图像块大小为h×w，那么以图像块的方式进行就是同时处理h×w根光线，还能引入光线之间的相关性。

图5为根据本发明实施例的基于图像块空间特征相似性的可泛化神经辐射场算法网络模型的数据训练流程示意图。

如图4和图5共同所示，根据本发明的实施例，构建的基于图像块空间特征相似性的可泛化神经辐射场算法网络模型400主要包括2D特征提取模块410、3D特征提取模块420、神经辐射场模块430、上采样模块440以及采样点指导模块450五个部分。

其中，2D特征提取模块，用于通过2D卷积神经网络(2D CNN)对若干张输入图像(multi-view images)提取多尺度二维特征(2D image feature)；3D特征提取模块用于通过3D卷积神经网络(3D CNN)，由多尺度二维特征构建代价体，通过UNet-3D提取代价体的深度概率体和三维特征体(3D image feature)，为神经辐射场的构建提供几何感知信息；采样指导模块用于基于深度概率体对空间中的采样点进行筛选，以保留满足预设深度概率要求的采样点；神经辐射场模块用于将经插值的二维特征、三维特征送入预设的MLP中，计算得到保留采样点的低分辨率目标图像特征；上采样模块用于基于前述神经辐射场模块得到的低分辨率目标图像特征上采样生成输入图像的高分辨率目标图像特征，并基于所述高分辨率目标图像特征渲染得到高分辨率图像。

具体的，作为示例，2D特征提取模块提取多尺度二维特征的方法包括：

对于大小为3×H×W的输入图像将其输入到2D提取特征提取模块中，得到大小为/>的2D低分辨率特征F_i,1，然后使用双线性插值的方法对特征图进行上采样，得到大小为/>的2D特征F_i,2，其中，H表示输入图像的高度，W表示输入图像的宽度，N表示输入图像的数量，i表示N张图像中的第i张。多尺度特征用于构建代价体和神经辐射场，其中，F_i,1用于构建代价体，F_i,2用于重建神经辐射场。

上述进行四倍下采样的目的是为了减小图像尺寸从而降低显存和计算量，而使用双线性插值进行两倍上采样的目的是为了得到不同尺度的特征信息。虽然由特征提取模块得到的低分辨率特征图与原图相比每个维度都进行了4倍下采样，但保留下来的像素的邻域信息被编码保存到32通道的特征通道中，包含了丰富的语义信息。

为了构建支持泛化到任意未见静态场景的网络，2D特征提取模块还包括三维映射单元，用于对于空间中的任意一个三维点，将其映射到输入图像的2D特征F_i,2上，或者是映射到上述下采样得到的2D低分辨率特征F_i,1上，得到像素对齐的特征{f_i|i＝1,...,N}，将这些在不同输入视图上的像素特征聚合起来再经过池化操作得到该三维点的图像特征f_img＝ψ(f₁,...,f_N)。该三维点的图像特征f_img将被神经辐射场模块用于计算低分辨率目标图像特征特征。

作为示例，3D特征提取模块通过所述多尺度二维特征构建代价体的具体方法包括：利用上述上采样得到的2D特征F_i,2，通过可微的单应变化基于目标视图的相机视锥体构建代价体。N张输入图像投影至若干个采样平面上{L_j|j＝1,...,D}，其中，D为采样平面的数量，j表示D个采样平面中的第j个，通过将所述2D特征F_i,2映射到D个采样平面上得到构建的代价体；

其中，给定输入视图Ii的相机内参矩阵K_i、旋转矩阵R_i、平移矩阵T_i和目标视图It的相机内参矩阵K_t、旋转矩阵R_t、平移矩阵T_t，单应变化可定义为：

其中a^T代表目标视图相机主轴a的转置矩阵，I是单位矩阵，H_i(z)将目标视图中的像素(u,v)在深度轴上投影到目标视图上，经过单应变化得到的特征值定义为：

基于单应变化后的映射特征，通过计算每个体素的多视图特征的方差得到代价体，其中，[u,v,1]^T表示[u,v,1]的转置矩阵。然后通过UNet-3D提取代价体的深度概率体和三维特征体。

通过UNet-3D进行深度概率体和三维特征体的提取，大致可以分为两部分，一是主干特征提取部分，这一部分是3D卷积层和激活函数的堆叠，获得若干个有效特征，二是加强特征提取部分，这一部分对上一步得到的有效特征进行上采样并进行特征融合。具体的，作为示例，UNet-3D包括编码器下采样、解码器上采样和跳跃连接，其中，跳跃连接将编码路径中相同分辨率的层传递到解码路径，为解码层提供高分辨率特征，最后再经过两个3D卷积层分别得到深度概率体和三维特征体。

另外，在提取所述代价体的三维特征体之后，3D特征提取模块还对三维特征体进行三线性插值，以得到具有空间几何信息的体素对齐特征f_voxel。该体素对齐特征f_voxel将被神经辐射场模块用于计算低分辨率目标图像特征。以体素对齐特征作为MLP网络的输入，能够为网络提供空间几何信息。

得到三维点的2D特征和3D特征之后，将其输入到MLP网络中，通过神经辐射场模块得到该三维点的点特征和体密度，定义为：

f_p,σ＝φ(f_img,f_voxel)

其中，φ为MLP网络，f_p为所述三维点的点特征，σ为所述三维点的体密度，由所述三维点的点特征f_p、所述三维点的像素特征f_img以及在输入视图下目标视图中三维点的相对观察方向预测输入视图图像颜色的混合权重w_i，再由w_i预测从目标视图的某一方向观看三维点时所观察到的颜色特征，定义为：

其中，f_i为输入视图的二维图像特征，将网络预测得到的颜色特征和体密度进行2D聚合得到每根光线最终的累积颜色特征。具体的，作为示例，对一根光线上的采样点的颜色特征和体密度进行加权求和，即可得到对应像素点的颜色特征。

其中，混合权重w_i的获取公式为其中，Δd_i为目标视图观看视角与输入视图观看视角之差。

本发明通过亚像素卷积的图像特征上采样操作来提高最终的图像质量。将低分辨率目标特征图输入到该上采样模块处理得到高分辨率的RGB图像作为高分辨率目标图像特征，该模块在模型末端，特征图在低分辨率空间可以保留更多的纹理区域，速度也能得到保证。另外，相比于将低分辨率的RGB图像插值成高分辨率的RGB图像，对特征图的上采样可以更好地学习到空间相关性，能获得更高质量的图像。亚像素卷积实际上是一种对像素重排列的上采样方式，其原理解释举例如下，[H,W,C]为一张低分辨率图像，通过卷积得到大小为[H,W,C*r²]的特征图，其中r为上采样倍数，随后对该特征图做shuffle变换得到大小为[H*r,W*r,C]的超分辨率图像，从而实现对图像的上采样。

亚像素卷积并非对整像素点做卷积，网络复杂性较低，采用亚像素卷积进行上采样能很大程度提高网络整体训练速度和推断速度。由上采样模块得到高分辨率RGB图像流程如图所示。

采样指导模块主要是利用由三维特征提取模块得到的深度概率体(DepthProbability Volume，简称DPV)，DPV与场景中的三维点相关联，存储了深度估计值以及包含了表面存在的概率信息。利用DPV包含表面存在概率信息进行采样指导，一方面可以减少采样点从而降低计算量节省计算时间，另一方面还能让采样位置更准确，这一步的作用近似于NeRF的粗采样步骤，但是并不需要像NeRF那样经过多层MLP得到用于精确采样的体积密度。同时，由于深度概率体包含采样点的深度概率信息，因此，在基于该深度概率信息对三维场景中存在的表面进行估算后进行累积密度函数的计算，计算结果决定哪些采样点将被保留并进一步细化，而哪些采样点将被丢弃。其中，可以保留满足预设深度概率要求的采样点，比如，将若干深度概率值较高的采样点将被保留，处理后输入网络进行进一步的计算，而深度概率值较小的采样点可以被丢弃，从而减少不必要的采样。通过那些被保留的深度概率值较高的采样点，可以获取更多的细节和准确的渲染结果。这种采样指导策略可以在不消耗大量计算资源的情况下，聚焦于存在不确定性的区域，从而更高效地进行场景重建。

采样指导模块450通过UNet-3D提取代价体的深度概率体，由深度概率体得到采样点的概率密度函数，以保留深度概率值较大的若干个采样点。具体的，作为示例，采样指导模块450进一步包括：

由于原始的NeRF对于每个像素都在光线上进行128个点的采样，然而这些采样点大部分是位于空白位置，造成了计算资源的浪费。而本发明中利用深度概率体来估算在三维空间中存在表面的概率，对表面的估计一方面可以减少采样点数提升运算速度，另一方面由于对表面进行了估算，所以采样点的放置相对精准，故也能提升最终场景重建图像的效果。

通过上述实施例可以看出，本发明提供的基于实时渲染可泛化神经辐射场的新视图合成方法，是一种能进行高效运算的NeRF类方法，用于三维场景重建和自由视点视频生成。其利用深度概率体来估算在三维空间中存在表面的概率，并使用深度概率体的估算结果来智能地指导采样过程，以更准确地找到合适的采样位置，减少不必要的计算资源的浪费。另外，本发明还通过深度概率体估算表面概率进行采样指导，替代了粗采样这一常规步骤，直接进行细粒度的采样，从而提高运算效率。以及，本发明还引入了采样点的采样指导策略，以进一步提高效率，其中，在上采样模块中引入空间相关性的上采样，以在低分辨率的特征图进行上采样，更好地学习到空间相关性，从而获得更高质量的图像，同时对提高效率有帮助。

另一方面，本发明还提供一种基于实时渲染可泛化神经辐射场的新视图合成***，基于如前所述的基于实时渲染可泛化神经辐射场的新视图合成方法进行自由视点视频的新视图合成，包括：

其中，上述网络模型构建单元构建的基于图像块空间特征相似性的可泛化神经辐射场算法网络模型，主要保护以下五个部分：

2D特征提取模块，用于提取输入图像的多尺度二维特征；

神经辐射场模块，用于通过预设的MLP网络计算出所述多尺度二维特征和所述三维特征体中保留采样点的低分辨率目标图像特征；

上述基于实时渲染可泛化神经辐射场的新视图合成***是和前述基于实时渲染可泛化神经辐射场的新视图合成方法相对应的实现***，其具体的执行步骤可参照上述基于实时渲染可泛化神经辐射场的新视图合成方法的具体实施例，在此不做再一一详述。

通过上述实施例可以看出，本发明提供的基于实时渲染可泛化神经辐射场的新视图合成方法及***，相对于现有的新视图合成方案，具有以下优点：

1.运算效率高：本发明的核心目标之一是提高NeRF类新视图合成方案的运算效率。通过智能的采样指导策略，能够减少不必要的计算开销，从而使运算更高效。

2.更准确的三维场景重建：使用深度概率体表面概率估算，有助于更准确地找到存在表面的位置；在特征维度进行上采样可以学习到空间相关性，能获得更高质量的图像，提高三维场景重建的准确性。

3.减少资源消耗：通过避免对整个场景进行均匀的粗采样，减少了计算资源的浪费，有助于在计算密集型任务中提高性能。

4.应用广泛：本发明在虚拟现实、游戏开发、增强现实、自由视点视频生成等多个领域都有应用潜力，可以提高这些领域的产品和服务质量。

应用本发明提供的上述基于实时渲染可泛化神经辐射场的新视图合成方法及***，能够获得以下技术效果：

1.高效的三维重建：本发明可以加速三维场景重建过程，使其更适用于实时或交互式应用，如虚拟现实体验、游戏和直播。

2.提高渲染质量：通过更智能的采样指导策略，本发明有望提高渲染质量，提供更精细的视觉效果。

3.资源节省：减少不必要的计算资源消耗，有助于降低硬件要求，提高性能。

4.可扩展性：本发明可适应不同的场景和任务，因此在各种应用中都具有良好的可扩展性和适应性。

作为本发明的另一方面，如图6所示，本发明还提供一种电子设备，该电子设备包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

该存储器存储有可被至少一个处理器执行的计算机程序，该计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的基于实时渲染可泛化神经辐射场的新视图合成方法及***方法中的步骤。

本领域技术人员可以理解的是，图6示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于实时渲染可泛化神经辐射场的新视图合成程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考图3和图4对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

如上参照附图以示例的方式描述了根据本发明提出的基于实时渲染可泛化神经辐射场的新视图合成方法及***方***、方法。但是，本领域技术人员应当理解，对于上述本发明所提出的基于实时渲染可泛化神经辐射场的新视图合成方法及***方***、方法，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，包括：

2.如权利要求1所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，所述可泛化神经辐射场算法网络模型包括：

2D特征提取模块，用于提取输入图像的多尺度二维特征；

3.如权利要求2所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，所述2D特征提取模块提取多尺度二维特征的方法包括：

从大小为3×H×W的输入图像中，下采样提取得到大小为/>的2D低分辨率图像特征F_i,1，然后使用双线性插值对所述2D低分辨率特征F_i,1的特征图进行上采样，得到大小为/>的2D特征F_i,2；其中，H表示输入图像的高度，W表示输入图像的宽度，N表示输入图像的数量，i表示N张图像中的第i张。

4.如权利要求3所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，所述2D特征提取模块还包括三维映射单元，用于将空间中的三维点映射到所述输入图像的2D特征F_i,2上，得到像素对齐的特征{f_i|i＝1,...,N}；以及，将在不同输入视图上的像素对齐的特征聚合起来再经过池化操作得到所述三维点的图像特征f_img＝ψ(f₁,...,f_N)。

5.如权利要求4所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，所述3D特征提取模块通过所述多尺度二维特征构建代价体，包括：

6.如权利要求4所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，所述3D特征提取模块在提取所述代价体的三维特征体之后，还包括：对所述三维特征体进行三线性插值得到具有空间几何信息的体素对齐特征f_voxel。

7.如权利要求6所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，所述神经辐射场模块通过预设的MLP网络计算出所述多尺度二维特征和所述三维特征体中的低分辨率目标图像特征，包括：

f_p,σ＝φ(f_img,f_voxel)

8.如权利要求7所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，基于所述低分辨率目标图像特征上采样生成所述输入图像的高分辨率目标图像特征，包括：通过对所述低分辨率目标图像特征进行亚像素卷积的图像特征上采样操作，生成所述输入图像的高分辨率目标图像特征。

9.如权利要求8所述的基于实时渲染可泛化神经辐射场的新视图合成方法，其特征在于，所述采样指导模块进一步包括：

10.一种基于实时渲染可泛化神经辐射场的新视图合成***，基于如权利要求1-9中任一所述的基于实时渲染可泛化神经辐射场的新视图合成方法进行自由视点视频的新视图合成，包括：

11.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-9中任一所述的基于实时渲染可泛化神经辐射场的新视图合成方法中的步骤。