CN113327299A

CN113327299A - 一种基于联合采样结构的神经网络光场方法

Info

Publication number: CN113327299A
Application number: CN202110781579.XA
Authority: CN
Inventors: 刘绍华; 李明豪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-08-31
Anticipated expiration: 2041-07-07
Also published as: CN113327299B

Abstract

本发明是一种基于联合采样结构的神经网络光场方法，用于三维场景的重建。本发明方法建立联合采样结构的神经网络光场，利用标定了相机参数的图片进行训练，然后利用训练好的神经网络光场计算所求新视图中的每个像素的颜色，生成新视图。本发明改进现有使用粗糙和细腻双网络采样拟合空间光场的技术方案，建立联合采样结构的神经网络光场，将粗糙网络和细腻网络进行级联，最终的颜色输出为两个网络输出共同生成的结果。本发明对细腻网络不再执行均匀采样，减少采样计算量和计算时间，在减少计算量的同时保证视图合成质量，并提高了生成三维视图的速度，节省了网络模型的训练时间。

Description

一种基于联合采样结构的神经网络光场方法

技术领域

本发明属于图像处理技术领域，涉及基于图像的三维场景获取、重建及展示，具体涉及一种基于联合采样结构的神经网络模型拟合并展示三维场景光线信息的方法。

背景技术

光场(Light Field)绘制是一种新的便捷、动态呈现三维场景的技术。光场绘制技术不需要专业人员设计重建复杂的几何模型，也不需要精细的纹理贴图和光照模拟，只要在多个视点位置拍摄一定数量的照片，就可以在未拍摄的新视点利用原始图片直接合成逼真的场景视图。光场绘制的原理是尽可能地采集场景空间中的光线信息，然后使用这些光线信息再还原出某一位置和角度观察到的场景视图。传统光场绘制技术由于使用启发式的采样方式，往往需要密集和规则的照片捕获，难以扩展到实验室外广泛应用。

近年来，一些方法将深度学习技术用于光场绘制。神经网络光场(NeuralReflectance Field,NeRF)方法使用神经网络隐式地编码输入图片中的场景光线，然后通过分层采样近似积分可以绘制出高质量的目标视图。NeRF方法适用于从虚拟合成到真实世界手持拍摄的各种数据集，并都取得了高质量的视图合成结果。但由于其需要隐式地拟合场景中所有光线的采样情况，目前还普遍存在训练时间长，运算速度慢的问题。

目前的NeRF方法使用粗糙和细腻双网络分离的采样方案来拟合空间光场(参考文献1：Mildenhall B,Srinivasan P P,Tancik M,et al.NeRF:Representing Scenes asNeural Radiance Fields for View Synthesis[A].//Proceedings of the ComputerVision--ECCV 2020[C],Cham:Springer International Publishing,2020:405-421.)。在这个过程中，粗糙的采样网络的输入是整个场景范围内沿某一光线均匀分布的采样点，输出是在这些采样点上存在有效颜色值的概率。通过对一条光线上所有采样点的有效概率进行统计，可以反向采样得到这条光线上概率大的位置更稠密、概率小的位置则更稀疏的细腻采样位置。在原始的NeRF方法中，粗糙网络的均匀采样结果的作用是生成细腻网络的输入(待采样位置)，而细腻网络在细腻采样位置的采样结果被用来近似积分合成新视图。NeRF方法合成视图的质量与在每根光线有效位置(即场景中非透明区域)的采样精细度成正比。在网络训练初期，粗糙网络采样结果可能并不可靠，通过其推导出的细腻采样位置偏离有效位置，继而无法合成合理的视图颜色。因此，原始的NeRF方法选择由细腻网络在与粗糙网络相同的均匀采样位置也进行采样，并与在细腻采样位置的采样结果一起合成最终的视图像素颜色，这无疑导致了更大的计算量和更长的计算时间。

发明内容

针对原始NeRF方法拟合空间光场时存在重复均匀采样带来的训练时间长，运算速度慢的问题，本发明提出了一种基于联合采样结构的神经网络光场方法，利用粗糙网络和细腻网络共享均匀采样结果，协同合成新视图的联合采样，减少了整个过程的计算量，继而减少网络的训练时间，加快视图合成速度。

本发明提出的基于联合采样的神经网络光场方法，输入已采集的三维场景中的场景图片，使用输入图片拟合三维场景中的光线信息，并利用光线信息生成三维场景在未预先拍摄的视角所观察到的新视图。其中，本发明方法在于拟合三维场景中的光线信息，简称光场，包括如下步骤：

步骤(1)：对输入的各个照片对应的相机参数进行标定，得到每张图片的相机参数信息。相机参数包括但不限于相机序号、相机模型、图片宽度、图片高度、焦距、光心位置、图像序号、三维姿态和相机位置信息。

步骤(2)：利用输入的图片和相应相机参数对网络进行训练，构建基于联合采样的神经网络光场。

步骤(3)：利用训练好的神经网络光场计算所求新视图中的每个像素的颜色，生成新视图。

所述步骤(2)中，构建基于联合采样的神经网络光场，包括：构建粗糙网络和细腻网络；粗糙网络的输入是光线r上的N_c个均匀采样位置，输出是对应采样位置的颜色和体密度，计算每个均匀采样位置存在有效采样值的概率密度函数；结合所述概率密度函数执行反采样，可以获取光线r上N_f个非均匀采样位置，作为细腻网络的输入，细腻网络的输出是对应采样位置的颜色和体密度；对所述N_c个均匀采样位置和N_f个非均匀采样位置合并再重排序，然后将粗糙网络输出的光线r的N_c个均匀采样结果，以及细腻网络输出的N_f个非均匀采样结果结合计算出最终视图像素对应的光线颜色。

所述步骤(2)中，对步骤(1)采集的每张图片，计算图中像素对应的光线起点和方向，对每条光线计算均匀采样位置，用于输入粗糙网络。

所述步骤(2)中，在训练神经网络光场时，将在每个像素上计算的粗糙网络的颜色结果和细腻网络的颜色结果分别与像素真实颜色的误差之和作为损失函数来同步训练粗糙网络和细腻网络。

相对于现有技术，本发明提出的基于联合采样的神经网络光场方法具有如下优点：(1)本发明改进现有使用粗糙和细腻双网络采样拟合空间光场的技术方案，对细腻网络不再执行均匀采样，减少采样计算量和计算时间；(2)本发明联合粗糙网络和细腻网络的采样位置，联合两网络的采样结果一起计算最终视图像素对应的光线颜色，在减少计算量的同时保证视图合成质量，并提高了生成三维视图的速度，同时还节省了网络模型的训练时间。(3)本发明将一个粗糙网络和一个细腻网络进行级联，最终的颜色输出为两个网络输出共同生成的结果，这种技术与网络的数量无关，可以从两个网络级联拓展到多个网络级联，也与每个网络的采样位置数量无关，不同的采样位置数量均可以应用本发明的联合采样技术。

附图说明

图1为本发明的神经网络光场绘制视图的步骤流程图；

图2为本发明提出的联合采样技术示意图；

图3为本发明实施例中神经网络的结构示意图。

具体实施方式

下面结合附图和实施例来说明本发明的实现，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于联合采样的神经网络光场方法，可以使用输入图片便捷地拟合三维场景中的光线信息，并利用光线信息生成三维场景在未预先拍摄的视角所观察到的新视图。如图1所示，本发明包括如下4个步骤。

步骤1：对于某一三维场景，使用相机、智能手机等具有拍摄功能的设备在场景的各个位置从不同角度拍摄或以其他方式采集一定数量的场景照片。

步骤2：可通过预先手工测量或使用从运动到结构(Structure from Motion,SFM)算法对各个照片对应的相机参数进行标定，得到每张图片的相机参数信息。相机参数包括但不限于相机序号、相机模型、图片宽度、图片高度、焦距、光心位置、图像序号、三维姿态和相机位置信息。

步骤3：构建和训练基于联合采样的神经网络光场。

光场绘制的原理是用一个5D全光函数来表示一个三维空间场景的所有光线信息。函数的输入是三维位置x＝(x,y,z)和基于球坐标系的方向向量d＝(θ,φ)。θ,φ分别是仰角和方位角。函数的输出是光线沿着方向d到达三维位置x所呈现的颜色c＝(r,g,b)和体密度σ。基于深度学***面的过程。照片上的每一个像素值可以看作是一根光线在相机感光平面呈现的颜色。

通过在一条光线上设置许多的采样点，神经网络可以在这些采样位置进行运算得到其颜色和体密度，然后积分得到一条光线在相机拍摄照片上的像素颜色C(r)。一条光线可以用r(t)＝o+td表示，其中o为光线起点，d为光线方向，t是沿着光线方向距离起点的采样距离。对于从***面t_n到远平面t_f的一条光线r，其在投影到***面上呈现的颜色C(r)计算如下：

其中，T(t)表示从t_n到t累积的透光度，即光线从t_n到t位置过程中没有被遮挡或者阻断的概率。而光线采样位置的体密度σ可以看作是光线在某一无穷小位置处终止的微分概率。摄像机的感光元件平面设置为***面，无穷远处为远平面。c(r(t))是指光线在这一无穷小位置呈现的颜色。而由于实际中计算机无法模拟完美的连续信号，因此需要一种离散的采样方式来近似。

本发明在实现神经网络光场时，提出了一种“联合采样”的方案，将粗糙网络输出的光线颜色信息重复利用起来，与细腻网络的非均匀采样结果联合起来生成最终的像素颜色。而原来细腻网络中与粗糙网络采样位置相同的均匀采样部分，不再输入到细腻网络中进行计算。相比原始的NeRF方法，本发明的联合采样方案理论上节省了一个粗糙网络均匀采样的计算量。本发明的联合采样方案如图2所示。

对每张采样图像，计算图中每个像素对应的光线起点和方向，并计算均匀的采样位置。设粗糙网络的均匀采样数量为N_c，细腻网络的采样数量为N_f。粗糙网络在N_c个均匀采样位置的采样结果如下：

其中，

和

分别为粗糙网络输出的第i个采样点的颜色和体密度。由于同处一根光线，所有采样位置有相同的方向d，Δt为均匀采样的采样间隔，

代表粗糙网络对应的采样函数。使用粗糙网络输出的体密度

可以计算每个均匀采样位置存在有效采样值的概率密度函数。通过结合概率密度函数执行反采样，可以得到N_f个非均匀采样位置，其输入到细腻网络中，得到细腻采样结果：

其中

代表细腻网络对应的采样函数，

为第j个非均匀采样位置。

分别为细腻网络输出的第j个采样点的颜色和体密度。

对于光线r，计算两个颜色，粗糙颜色C_c(r)和细腻颜色C_f(r)，其中粗糙颜色仅使用粗糙网络输出的均匀采样结果：

其中，

为第i个均匀采样位置，

为

位置的体密度，

为

位置的采样颜色，

T_i表示从第1个均匀采样点到第i个均匀采样点累积的透光度，δ_i表示第i-1采样位置到第i个采样位置的距离。而细腻颜色作为最终真正用于合成视图的像素颜色，则由细腻网络的非均匀采样结果与粗糙网络的均匀采样结果混合而成。但由于光线采样结果的累计需要由近至远进行，为了解决这个问题，本发明所提出的联合采样技术将非均匀和均匀的采样位置合并做一次重排序：

其中，sort表示排序。同时，将每一个x_k与各自的采样结果对应起来，设σ_k为x_k位置的体密度，c_k为x_k位置的采样颜色。然后联合两种采样结果一起计算出最终视图像素对应的光线颜色：

其中，x_k-x_k-1为第k个采样位置与前一个采样位置的距离，x₀的值为0。

最后，进行网络训练。通过比较计算颜色与真实颜色的差值迭代地训练神经网络，调整网络权重参数使其收敛。在合成新视图的测试阶段，将计算颜色作为目标像素颜色。本发明在每个像素上计算粗糙和细腻两种颜色结果的L₂误差作为损失函数来同步训练两个网络：

其中，C_gt(r)为光线对应像素颜色的真实值，

表示求向量的二范数，即Euclid范数。

步骤4：在已知相机参数的情况下，通过重复步骤3计算画面中每一个像素的颜色，从而合成一张场景的观察视图。

实施例：

实现本发明神经网络光场的应用环境如下：

神经网络光场绘制算法程序由Python语言编写，其中神经网络部分基于PyTorch框架实现。程序的数据处理和逻辑为CPU单线程运行，而算法效率的主要瓶颈在于神经网络计算光线采样结果，该部分由GPU进行运算。算法运行在服务器上，服务器需要安装CUDA(Compute Unified Device Architecture，统一计算设备架构)以进行神经网络的推理训练。

神经网络光场算法涉及到的参数包括两类：

第一类，光线采样相关参数。本次实施例中，每根光线输入到粗糙网络进行均匀采样的位置数N_c＝64，输入到细腻网络的非均匀采样位置数N_f＝128。同时为了提高神经网络学习图像的高频细节，在将位置和方向向量输入到网络前预先执行一个扩张维度的编码。扩张维度编码的函数并不唯一，本发明实施例的编码函数为：

γ(p)＝(sin(2⁰πp),…,sin(2^L-1πp),cos(2^L-1πp) (8)

其中，p是一个一维值，编码函数将一维值γ(p)通过傅里叶变换扩展为一个2L维的向量。实际计算时位置向量的维度为3，对其编码的L＝10，方向向量维度为3，对其编码的L＝4。

第二类，神经网络训练相关参数。训练网络每次迭代的并行光线数量为1024，每个神经网络单次计算的采样位置数量为16384。以上两个参数可根据显卡实际可用的显存容量进行调节。训练使用Adam优化器学习和更新权重参数，初始学习率设为5×10^-4，并向5×10^-5指数递减。每个场景训练50万次。

本发明实施例执行如下步骤：

步骤1：在场景中各个位置和角度拍摄一组场景图片，每组3张以上图片。

步骤2：使用COLMAP或其他三维重建软件还原出所有图片对应的相机参数。

步骤3：为所有图像的每个像素计算其对应的光线起点和方向，并计算均匀的采样位置。

步骤4：对每个采样的位置向量和方向向量进行扩张维度编码。

步骤5：将经过编码后的位置和方向向量输入到粗糙神经网络中，输出均匀采样结果。粗糙网络模型的结构如图3所示，γ(x)、γ(d)分别代表编码后的位置向量和方向向量，60、24分别代表位置向量和方向向量的维度。

步骤6：根据粗糙网络的均匀采样结果反采样出非均匀采样位置，经步骤4编码后输入到细腻神经网络中。细腻网络与粗糙网络的网络结构相同。

步骤7：使用联合采样技术综合两个网络的采样结果计算最终的像素颜色，并计算与真实值的差异，迭代训练网络。

步骤8：网络训练完成后，通过输入需要合成视图的位置和方向，重复步骤3-6，合成视图中所有像素颜色，得到目标图片。

采用本发明方法所能得到的技术效果如下说明。

设单个MLP神经网络执行单个采样位置的计算量为τ，在每根光线上由粗糙网络执行的均匀采样数量N_c＝64，细腻网络执行的非均匀采样数量N_f＝128。原始的NeRF方法由于细腻网络仍需再执行一遍均匀采样，其采样单根光线的总计算量为256τ。本发明方法中由于细腻网络不再执行N_c＝64的均匀采样，而是共享粗糙网络已有的均匀采样结果，其采样单根光线的总计算量为192τ。也就是说，本发明的联合采样技术相比原始级联采样理论上可以在神经网络部分可以节省25％的计算量。

本发明方法目的在于减少计算量的同时保证与普通级联采样一致的视图合成质量，并提高速度。因此，在训练完成后，使用每张图片合成所需时间以及网络训练时间来衡量算法的效率，使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)两项得分来评估本发明神经网络光场方法合成的目标视图的质量。

神经网络光场算法测试常用的公共数据集为Realistic Synthetic 360°合成场景数据集和Real Forward-Facing真实世界数据集。Realistic Synthetic 360°数据集包括Chair、Drums、Ficus、Hotdog、Lego、Materials、Mic和Ship等八个由Blender软件精细建模的复杂非朗伯场景。每个场景的图片由三维软件Blender的环形路径追踪插件采集，其中6个场景从上半球方向环绕拍摄，另外2个则从整个球形的各个方向采集。每个场景的图片选取100张输入到神经网络中进行训练，13张用于测试。该数据集所有图片的分辨率为800×800像素。Real Forward-Facing数据集包括Room、Fern、Leaves、Fortress、Orchids、Flower、Trex和Horns等八个真实世界场景。与Realistic Synthetic 360°数据集是环绕采集不同，Real Forward-Facing数据集的图片是使用智能手机面对着场景上下左右平移拍摄，即Forward-Facing。由于是手持拍摄的真实场景，每张图片对应的摄像机参数由COLMAP软件估计得到。每个场景的图片数量为20至62不等，其中八分之一作为测试集，其他图片作为训练集。该数据集所有图片的分辨率为1008×756像素。

表1展示了在Realistic Synthetic 360°数据集上两种方案的合成视图质量及效率。可以看出，相比原始NeRF方法，本发明方法在减少了25％的计算时间的同时，保证了和原始方法几乎一致的视图合成质量。

表1在Realistic Synthetic 360°数据集上的结果对比

其中，Time为合成每张图片所需时间，单位为秒(s)；加粗的数字为最佳得分。

表2展示了在Real Forward-Facing数据集上两种方案的合成视图质量及效率。可以看出，与表1中的结果类似，本发明方法在大幅度减少了计算时间的同时，保证了和原始方法几乎一致的视图合成质量，在速度和质量两方面的均衡取得了最优。

表2在Real Forward-Facing数据集上的结果对比

另外，由于神经网络光场本质上是使用权重参数对单一场景进行隐式编码，实际应用时其需要在每个场景上都单独重新训练模型。因此，节省网络模型的训练时间也十分有必要。

表3展示了在两个数据集上平均每个场景的训练时间。

表3平均每个场景的训练时间(单位为小时/h)

	原始NeRF	本发明方法
			Realistic Synthetic 360°	52.37h	40.17h
Real Forward-Facing	56.90h	43.59h

可以看出，本发明方法相较于原始NeRF方法减少了20％左右的训练时间。本发明方法中粗糙网络和细腻网络是协同训练的，颜色变化除了反馈给细腻网络，也实时反馈给粗糙网络，与原始NeRF方法相比，粗糙网络训练迭代调整参数的方向并不相同。通过上面实验可以看出，本发明方法在保证三维视图生成质量的前提下，提高了生成速度，节省模型训练时间。

Claims

1.一种基于联合采样的神经网络光场方法，利用已采集的三维场景中的场景图片，拟合三维场景中的光线信息，利用光线信息生成三维场景中的新视图，其特征在于，拟合三维场景中的光线信息包括：

(1)预先对已采集的场景图片对应的相机参数进行标定，获得每张图片的相机参数；

(2)构建和训练基于联合采样的神经网络光场；

所述的构建基于联合采样的神经网络光场，包括：构建粗糙网络和细腻网络；粗糙网络的输入是光线r上的N_c个均匀采样位置，输出是对应采样位置的颜色和体密度，计算每个均匀采样位置存在有效采样值的概率密度函数；结合所述概率密度函数执行反采样，获取光线r上N_f个非均匀采样位置，作为细腻网络的输入，细腻网络的输出是对应采样位置的颜色和体密度；对所述N_c个均匀采样位置和N_f个非均匀采样位置合并再重排序，然后将粗糙网络输出的光线r的N_c个均匀采样结果，以及细腻网络输出的N_f个非均匀采样结果结合计算出最终视图像素对应的光线颜色；

利用标定了相机参数的图片组成训练集用于训练神经网络光场，训练时将在每个像素上计算的粗糙网络的颜色结果和细腻网络的颜色结果分别与像素真实颜色的误差之和作为损失函数来同步训练粗糙网络和细腻网络；

(3)利用训练好的神经网络光场计算新视图中的每个像素的颜色，生成新视图。

2.根据权利要求1所述的方法，其特征在于，所述的(1)中，相机参数包括但不限于相机序号、相机模型、图片宽度、图片高度、焦距、光心位置、图像序号、三维姿态和相机位置。

3.根据权利要求1所述的方法，其特征在于，所述的(2)中，基于联合采样的神经网络光场中，粗糙网络在N_c个均匀采样位置的采样结果如下：