CN109389667B

CN109389667B - 一种基于深度学习的高效全局光照明绘制方法

Info

Publication number: CN109389667B
Application number: CN201810965109.7A
Authority: CN
Inventors: 李胜; 高煜; 林泽辉; 汪国平
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2023-07-18
Anticipated expiration: 2038-08-23
Also published as: CN109389667A

Abstract

本发明公开一种基于深度学习的高效全局光照明绘制方法，其步骤包括：1)选取或生成若干组图像，每一组包括k张使用不同光子收集半径来进行光照明计算并渲染出的粗糙彩色效果图；对于每一组图像，将该组k张彩色效果图在三个通道上叠放作为神经网络的输入；2)利用该神经网络对输入数据进行训练，得到神经网络模型及其各项参数；3)根据当前待渲染的视点参数和三维场景，执行光子映射方法，生成k张彩色粗糙效果图并将该k张彩色图在三个通道上叠放作为输入数据；然后利用步骤2)训练得到的神经网络模型及其各项参数对当前输入数据进行处理，得到最终合成的渲染图像。本发明只需要用很少的光照明粗糙图，就能合成出高质量的真实感渲染效果图。

Description

一种基于深度学习的高效全局光照明绘制方法

技术领域

本发明属于计算机图形学领域，涉及一种基于深度学习的高效全局光照明绘制方法。

背景技术

光照明计算是计算机图形学的关键问题，随着游戏，电影，动画和虚拟现实等领域越来越追求其场景渲染的高真实感，同时对算法的速度要求越来越高。但是基于全局光照明的绘制算法收敛较慢，很多时候满足不了实时渲染的要求。

深度学习作为机器学习的先进技术，结合高并行度硬件的发展，正在人工智能的各个领域大方异彩。深度学习理论基于大数据，比起传统的人工规则方法，具有更高的鲁棒性，能处理各种在算法设计前意想不到的情况。其中，在图像感知、处理的领域，卷积神经网络正逐步取代许多传统的方法。

这样的背景下，将深度学习用于三维场景的光照明计算并生成高逼真度的图形渲染效果是一个具有合理性的创新思路。利用高精度的算法生成高质量的图片作为训练数据来离线训练神经网络，在实际使用时加载训练好的网络模型，通过网络的高效性以及最大幅度的网络精准性来合成最终的高质量渲染结果。但该方法依然可能存在如下问题：高精度、高鲁棒性的神经网络通常需要更深的结构、更多的参数及更高的计算量，那么在保证时间效率的前提下，如何设计出一个有效的神经网络生成与传统的非深度学习的光照明计算方法具有同样质量的渲染图？神经网络是基于数据的方法，究竟多少光子数据作为输入才能得到一个通用的基于光子映射的全局光照明算法？

发明内容

有鉴于此，本发明的主要目的在于提供一种基于深度学习的高效全局光照明绘制方法。通过对专门设计的输入数据的训练，得到面向光子映射全局光照明的神经网络模型，此后只需要使用很少的光子数，本发明即可高效生成具有全局光照明的绘制效果。

本发明所针对的全局光照明计算方法是针对光子映射方法而设计。现有的光子映射算法及其改进方法，一般都通过发射大量光子和某种特定的方式确定收集光子的半径，利用这些收集的光子进行光照明的计算从而渲染并输出图像结果。而发射大量光子并追踪的时间，占了光子映射算法的主要时间，在某种程度上，发射光子的数量与光子映射算法的耗时成正比。

本发明提供了一种新的神经网络结构进行数据训练和学习，然后用训练得到的网络模型进行部署(deploy)，只需用很少的光子数渲染得到的光照明渲染图，就能合成出高质量的真实感渲染效果图，因此在获取相近的绘制效果的条件下可以节约大量的渲染时间。

本发明的技术方案为：

一种基于深度学习的高效全局光照明计算方法，其步骤包括：

1)生成若干组图像作为神经网络的输入数据集，每一组包括k张使用不同光子收集半径来进行光照明计算并渲染出的彩色效果图；对于每一组图像，将该组的k张彩色效果图在三个通道上叠放，形成3×k×h×w的三维矩阵作为神经网络的输入；其中，h代表彩色效果图的高度，w代表彩色效果图的宽度；

2)利用该神经网络对输入的多组3×k×h×w的三维矩阵进行反复训练，得到神经网络模型及其各项参数；

3)根据当前待渲染的视点参数和三维场景，执行光子映射方法，生成k张彩色效果图并将该k张彩色效果图在三个通道上叠放，形成3×k×h×w的三维矩阵作为输入数据；然后利用步骤2)训练得到的神经网络模型及其各项参数对当前输入数据进行处理，得到最终合成的渲染图像。

进一步的，该k张彩色效果图为绘制内容相同但渲染质量不同的k张图像。

进一步的，所述神经网络包括第一卷积层、第一阶段stage1形成数据层s1、第二阶段stage2形成数据层s2、第三阶段stage3形成数据层s3、第一反卷积层、第二反卷积层和第三反卷积层，利用该神经网络对输入的3×k×h×w的三维矩阵进行训练的方法为：

31)利用第一卷积层对输入的训练数据进行卷积处理，抽取训练数据的低层特征；

32)利用第一阶段stage1、第二阶段stage2、第三阶段stage3依次对所述训练数据进行进一步特征的提取和压缩；

33)对第二阶段stage2压缩后的数据层进行卷积和批次归一化、对第三阶段stage3压缩后的数据层进行反卷积和批次归一化，然后对两处理结果进行特征连接；

34)对步骤33)的处理结果进行非线性激活后得到第一反卷积层；

35)对第一阶段stage1提取的特征进行卷积和批次归一化，并将所得结果与步骤34)的第一反卷积层进行再次反卷积和批次归一化后的结果进行特征连接；

36)对步骤35)的特征连接处理结果进行非线性激活后得到第二反卷积层；

37)对步骤36)的第二反卷积层依次进行反卷积、批次归一化和非线性激活后得到第三反卷积层；

38)将第三反卷积层处理得到的多维度特征通过卷积的方式融合为包含3通道的一张彩色图作为输出；

39)将输出结果与所述训练数据对应的标签图中所有像素的均方误差的和作为所述神经网络的损失函数。

进一步的，每个阶段stage由若干个残差结构块连接而成。

进一步的，第一卷积层利用7×7卷积抽取训练数据的低层特征。

进一步的，所述步骤33)中，对第二阶段stage2压缩后的训练数据进行1×1的卷积；所述步骤35)中，对第一阶段stage1提取的高层特征进行1×1的卷积。

进一步的，所述步骤33)和步骤35)中的特征连接采用按元素操作的方法。

进一步的，采用不同的视点位置生成不同组图像数据。

进一步的，采用不同的观察方向生成不同组图像数据。

进一步的，k取值为10或者20。

进一步的，每个数据层都包含多张尺寸相同的图像且不同数据层包含的图像数量不等，通过多张尺寸相同的图像表示该数据层的多维度特征，图像尺寸不同的层之间的数据的维度也不同。

与现有技术相比，本发明的积极效果为：

本发明结合光子映射的全局光照明绘制方法与深度学习的神经网络，基于光子映射全局光照明的框架，通过只发射少量的光子，再利用神经网络结构及其网络参数，能够合成出接近发射大量光子进行光子映射渲染的结果。本发明所设计的神经网络的方法对不同的三维场景具有通用性，也就是并不仅仅针对特定场景，而是对任意的新场景皆适用。对于新场景只需要耗费一定的时间重新进行离线训练，保存好模型后就可以快速地渲染该场景。此外，通过机器学习的迁移学习(即已经训练好的模型参数迁移到新的模型来帮助新模型的训练)技术，可以使新场景的训练要花费的时间会远小于重新训练的时间。在例如游戏这种需要高逼真度光照明计算的实际应用中，绘制的场景往往都是关卡内的场景，因此完全可以先训练好，然后玩家使用时再加载。至于电影、动画、虚拟现实等应用，可以根据问题的需要，利用“模板场景”训练几个模型，供整个拍摄过程或整个行业使用，若复用度足够，深度学习的方法也能获得更高的综合效率。

附图说明

图1为本发明的神经网络；

图2为以MSE Loss作为损失函数的训练流程图。

具体实施方式

下面结合附图详细说明本发明基于深度学习的光照明绘制方法的实施方式。

本发明与深度学习中卷积神经网络(CNN)相关的基本概念：

a)卷积神经网络(CNN)中的stride，kernel，pooling

步长(stride),卷积核大小(kernel),池化(pooling)是卷积神经网络结构设计中常用到的概念。图像卷积一般是2维卷积，在卷积层中，kernel指的是卷积核的大小(高度和宽度)，而stride则是指卷积的采样步长。stride也可以针对图像特征(feature map)而言，指feature map的高宽对应的采样步长，即多层的神经网络也可以当作一次采样进行。

池化层(Pooling layer)是CNN中除了卷积层外另一个非常常见但又比较特殊的层，该层也有kernel和stride的概念。不同的是，它做的不是一个可学***均值。

b)反卷积(deconvolution)

在CNN中经常提到的反卷积(也叫逆卷积)，实际上是数学中的转置卷积transposed convolution，与普通的卷积不同的是，普通的卷积一般输出的矩阵大小只能保持输入的矩阵大小不变，而转置卷积则能够扩大矩阵。

在CNN中，该反卷积运算的语义效果被认为是与卷积相反，卷积抽取低层特征，融合成更少的关键信息；而反卷积能够将关键信息展开回低层信息。因此，转置卷积在CNN中被称为反卷积是非常直观的。

c)阶段(stage)

阶段(stage)用来表达CNN中通过Resnet结构将图像特征(feature map)尺寸减少的过程。这是Resnet术语(He K,Zhang X,Ren S,et al.Deep residual learning forimage recognition.Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2016:770-778.)，一个stage往往由许多卷积、激活层等计算组成，但是不同的网络结构有不同的设计。一般来说，一个CNN的主干由若干stage拼接而成，每个stage都可以将图像的尺寸变小。

d)感受野

在CNN中，感受野是针对特定feature map而言的。在卷积的过程中，一个位置的信息逐渐能和附近的信息融合，而这些信息又可以来源于它们的附近。但一个点最终不一定能得到全图的信息。那么每个点在计算中能融合到的最远信息原本像素与它的距离，就称为感受野。

由于卷积网络的局部性，不能覆盖全图的感受野不一定是劣势；反而是如果感受野不大，则每个像素是通过附近的像素求解，这实际上增加了网络的泛化能力。但是过低的感受野会使网络的局部性太强，导致网络欠拟合。例如，光照明任务中感受野太小，最后可能只能拟合出一个平滑的后处理函数，无法像期望的一样通过光照明的语义信息进行渲染。

e)非线性激活层(ReLU)

神经网络中的非线性激活层，Resnet中用ReLU实现，称为线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function)，通常指代以斜坡函数及其变种为代表的非线性函数。

f)其他

本文的层的深浅方向按照如下规则，CNN中靠近输入层被称为“浅”，而靠近输出层的被称为“深”。

本发明基于深度学习方法的设计，提供了一种新的神经网络结构进行数据训练学习，然后用训练得到的网络模型和参数进行部署(deploy)，只需要用很少的光照明渲染图，就能合成出高质量的真实感渲染效果图。本方法的步骤如下：

步骤一：生成数据作为神经网络训练的输入

本发明先利用光子映射的方法，将场景模型渲染成2D的中间结果(渲染效果图)作为网络训练的输入数据。针对当前场景和相同视点位置下，采用k张尺寸相同的图像作为数据输入网络是合理的策略(每张图绘制内容完全相同，只是渲染的质量即光照明的准确程度有区别，更进一步就是图像中的模糊(bias)和噪声(variance)的程度不同，由调整命中点(hit point)周围的光子收集半径或者光子收集数量来实现)，所以神经网络的数据输入采用的是使用不同光子收集半径来进行光照明计算并渲染出的k张彩色效果图。由于这些渲染效果图所用的光子也是稀疏的，这k张图中的每一张图所使用的光子量是生成label(标签)图所需要的非常小的量。标签是指与生成k张彩色效果图对应，由完全一样的相机外参(位置和朝向)和绘制参数，但是由100％光子所渲染生成的效果图，这个图被认为是真值图，而这张真值图也同时用来与神经网络训练后的数据输出做损失函数(Loss function)的计算，并以此调整校正神经网络模型的参数(如图2所示)。k张效果图中的每一张效果图生成时只用1‰的光子(即通常意义只需耗费生成label时间的大约1‰左右)来生成粗糙的效果图，利用稀疏的光子来计算该场景的全局光照明(radiance)并合成一张渲染效果图的方法可参考文献(Toshiya Hachisuka,Shinji Ogaki,and Henrik WannJensen.2008.Progressive photon mapping.ACM Transactions on Graphics(TOG)27,5(2008),130.)中的方法。然后将这k张效果图在三个通道(channel)上叠放(concat)以后，形成3×k×h×w的三维矩阵(其中3代表一张渲染图由RGB三个通道的图像格式构成，h和w分别代表图像的高度和宽度，k一般取值为10或者20)，作为CNN神经网络的输入。为了进行神经网络的训练，需要事先生成大量的多组训练数据(一般都需要上千组数据，而每一组训练数据包含上述的k张图像)，而不同组图像数据的生成时采用不同的视点位置或者不同的观察方向。

步骤二：如图1所示，构建一个神经网络，对步骤一中的输入数据选择一组进行训练，以得到神经网络模型，其子步骤如下：

(1)先用7x7大小的卷积核做卷积操作，抽取出低层特征，得到卷积层1，该数据层包含多张图像且尺寸相同，通过多张图像表示多维度的数据特征，也称为该层的数据的维度；

(2)再通过3个阶段(stage)实现在压缩尺寸的同时提取高层特征，其中每个stage由若干个残差结构块(Residual block)连接而成；经过3个stage，分别得到是s1、s2、s3这三个数据层；经过阶段2(stage2)和阶段3(stage3)时，图像尺寸缩减；每个数据层都包含数量不等的多张图像且尺寸相同，通过多张尺寸相同的图像表示该数据层的多维度特征，每一层的数据的维度不同；

(3)还原到原图的尺寸采用3个反卷积层(deconvolution)，在反卷积操作中，分别得到反卷积层1、反卷积层2和反卷积层3共三个数据层，每个数据层都包含数量不等的多张图像且尺寸相同，通过多张尺寸相同的图像表示该数据层的多维度特征，每一数据层的特征的维度不同；

1)在反卷积步骤中的批次归一化(batch normalization,BN)，表示将一个批次(batch)内的数据正规化，也就是deconvolution+BN；批次是指在训练神经网络的同时，不用一次发送整个输入，我们将输入分成几个随机大小相等的块。与整个数据集一次性馈送到网络时建立的模型相比，批量训练数据使得模型更加广义化；

2)为了将浅层的特征与深层的融合，本发明设计了多级特征连接：

首先匹配Resnet的阶段(stage)和反卷积(deconvolution)，将图像特征(featuremap)高宽相同的作匹配(即数据尺寸相同)，再对除最后一个阶段(stage)外的每个阶段(stage)的输出数据层作一个1x1的卷积+批次归一化(Convolution+BN)，使其数据维度和反卷积相同。如图中表示的s2层在执行了卷积+批次归一化(Convolution+BN)之后与s3层执行反卷积+批次归一化(deconvolution+BN)之后进行特征连接作为第一级的特征连接；s1层在执行了卷积+批次归一化(Convolution+BN)之后与反卷积层1执行反卷积+批次归一化(deconvolution+BN)之后进行特征连接作为第二级的特征连接；特征连接的方法是执行按元素操作(eltwise层操作，即图1中的圆圈内加法操作，eltwise层有三种类型的操作：product(点乘)、sum(求和)、max(取最大值))；

3)特征连接之后通过非线性激活层(ReLU)进行激活，称为线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function)，通常指代以斜坡函数及其变种为代表的非线性函数。PreLU(Parametric ReLU)等其它形式的变体也可行；

(4)最后用一个卷积操作将反卷积层3中的多维度特征(即多张图像)融合为一张包含3通道的彩色图作为输出。

(5)将label(标签)和上一步骤中的输出L2Loss损失函数(loss function)计算误差并校准调整神经网络模型的参数，如图2所示，损失函数(loss function)是用来估量网络模型的预测值与真实值的不一致程度，它是一个非负实值函数，损失函数越小，模型的鲁棒性就越好。由于网络输出的是图像，不能简单复用分类和分割任务的交叉熵，或回归任务的Smooth L1Loss，这里直接采用输出和标签(label)图中所有像素(pixel)均方误差(meansquared error,MSE)的和作为loss function。根据损失函数值，从步骤一所生成的训练数据集中选择使用另一组输入数据，返回步骤二继续进行神经网络模型训练。

需要说明的是，图1中含卷积层1、s1、s2、s3、反卷积层1、反卷积层2、反卷积层3在内的数据层，其数据都是多维度的(即包含多张同尺寸的图)。一般数据的尺寸越大，其所需要的维度越小，当一个数据层经过处理阶段(stage)其尺寸缩小时，其维度也会随之升高(维度的大小往往代表特征分类的多少)；而经历反卷积处理时，由于数据尺度增大，则其维度也会相应减小。此外，在进行多级特征连接时，除了图像尺寸要匹配外，图像特征的维度也要一致。

通过上述步骤对输入的多个训练数据进行反复神经网络训练并优化网络模型参数，最终得到由各项参数所表示的网络模型。

步骤三：部署应用，也就是用上述步骤得到的神经网络模型和参数应用到待绘制三维场景进行真实感图像的合成。首先如步骤一所述的那样，根据当前待渲染的相机(视点)参数和三维场景，执行光子映射方法，生成如步骤一所述的k张粗糙效果图，然后将此k张粗糙图叠放形成3×k×h×w的三维矩阵作为输入数据，以上述步骤二构造的神经网络模型和各项参数对输入数据进行如步骤二的步骤进行处理(其子步骤(5)除外，该步骤不执行)，得到最终合成的渲染图像结果。

补充描述：

a)多级特征连接

因为高层特征难以下采样导致其信息不足以还原成原图大小，因此受高低层特征融合的启发，将浅层特征融合到输出反卷积层中。这样一方面减少了梯度的传递层数，使网络更容易优化；另一方面使网络结构更整体，能在细节上表现更好。

在本发明的网络结构中，要将浅层的特征与深层的融合，实际上期望的语义是光子的半径数值与深层的光照状态融合，进一步确定渲染方法。例如焦散边界线的明确化，高层语义可以确定边界线的位置，而线两侧的明亮程度变化则由浅层的光子信息得到。具体实现借鉴了Resnet shortcut的思路。首先匹配阶段(stage)和反卷积(deconvolution)，将feature_map高宽相同的作匹配，再对每个阶段(stage)的输出作一个1x1的卷积，使两者的数据尺寸和维度相同，并在非线性激活层(ReLU)之前执行按元素操作(eltwise层操作，就是图1中的加法)，实现特征融合的目的。该方法加入后，明显网络收敛加快，生成图像的峰值信噪比(psnr)也有所上升，表明生成图像的质量的提升。

b)encode-decode模型

和CNN传统的分类任务不同，在光照明计算任务中，往往输入图较大(甚至大小不一)，但无法通过图像缩放来调整图像(因为会损失图像的精度，导致结果模糊不清)。因此本发明设计的网络以固定大小的图片作训练，但测试和应用时能直接应用于不同尺寸的图像。本发明全卷积网络是设计的基础，由于卷积权值共享的特性，一定大小的图片进入卷积网络，其输出是和输出图片成一定比例的，在该问题中，本发明设置的比例就是1。

本发明将Resnet用于作为encode–decode模型中的encoder，用于提取高层语义信息。这样的设计不仅是全卷积网络，而且相对那些不压缩图像的方法而言，所采取的压缩策略保证了输出层的感受野，减少了计算量。

c)反卷积层(deconvolution层)

由于本发明所处理的是像素(pixel)到像素(pixel)的图像生成任务，需要将网络输出的feature map进行下采样以扩大图像的大小，本发明采用多个可学习的反卷积将图像扩大。

选择反卷积的原因有二：首先，网络的设计希望是全卷积网络，这样全连接等没有不具有局部性的方法如全连接等就无法使用了；另一方面，相比于不可学习的下上采样方法(池化，双线性差值)，反卷积更适合光子映射任务中高深层和底浅层语义信息融合的特点，在高深层语义十分抽象的情况下，也可通过可学习的反卷积转化成低浅层语义。

而之所以用多个小卷积降采样而不是单个卷积(相比于FCN)，是使用了拆解卷积的思想，用多个3×3的卷积拆解一个较大的卷积(如7×7用3个3×3拆解)，用该方法拆解反卷积。这样大幅减少了参数量，并增加了网络的泛化性能。

总结：

本发明给出了一种可行的高保真信息传递模型，利用多级特征连接，在Resnet基础上构造多个反卷积的策略，构建encode–decode模型，保留了原始语义信息的同时保证了网络的感受野，这样的模式可成为真实感绘制领域中深度学习网络的一种可参考的模式。本发明所设计的神经网络不仅是全卷积网络，而且相对那些不压缩图像的方法而言，所采取的压缩策略保证了输出层的感受野，减少了计算量。

另一方面，网络结构设计主要有两个难点。一是高保真的信息传递：由于光子映射的特殊性，如果要求需要生成图片足够清晰，那么还原这些图片的信息量则非常大。而要获得这些真实的信息，在网络前传的过程就要时刻保证信息量(加入多级特征连接,不使用pooling和bottleneck)；另一个难点是高容错的设计：由于光子映射的范围/精度要求大且结果输出内容较大，使得梯度变化快，因此采用更多的容错梯度手段，也就是多级特征连接，使得网络更易优化，减少了参数调整的难度，增加了网络的泛化性能，部分措施修改了网络的反传结构，使网络更快收敛(多级特征连接)，部分措施增加了网络的表达能力而更适应光子映射问题，使训练效果更好。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护，例如继续增加阶段(stage)、增加反卷积层，以及相应地增加多级连接的级数等。本发明内容的主旨是由权利要求书所界定，而非有实施例的具体描述所界定。

Claims

1.一种基于深度学习的高效全局光照明绘制方法，其步骤包括：

1）选取或生成若干组图像作为神经网络的输入数据集，每一组包括k张使用不同光子收集半径来进行光照明计算并渲染出的彩色效果图；对于每一组图像，将该组的k张彩色效果图在三个通道上叠放，形成3×k×h×w的三维矩阵作为神经网络的输入；其中，h代表彩色效果图的高度，w代表彩色效果图的宽度；该k张彩色效果图为绘制内容相同但渲染质量不同的k张图像；

2）利用3×k×h×w的三维矩阵对该神经网络进行训练，得到神经网络模型及其各项参数；其中，所述神经网络包括第一卷积层、第一阶段stage1、第二阶段stage2、第三阶段stage3、第一反卷积层、第二反卷积层和第三反卷积层，利用3×k×h×w的三维矩阵对该神经网络进行训练的方法为：

31）利用第一卷积层对输入的训练数据进行卷积处理，抽取训练数据的低层特征；

32）利用第一阶段stage1、第二阶段stage2、第三阶段stage3依次对所述训练数据进行特征提取和压缩；

33）对第二阶段stage2压缩后的数据层进行卷积和批次归一化、对第三阶段stage3压缩后的数据层进行反卷积和批次归一化，然后对两处理结果进行特征连接；

34）对步骤33）的处理结果进行非线性激活后得到第一反卷积层；

35）对第一阶段stage1提取的特征进行卷积和批次归一化，并将所得结果与步骤34）得到的第一反卷积层进行再次反卷积和批次归一化后的结果进行特征连接；

36）对步骤35）的特征连接处理结果进行非线性激活后得到第二反卷积层；

37）对步骤36）得到的第二反卷积层依次进行反卷积、批次归一化和非线性激活后得到第三反卷积层；

38）将第三反卷积层处理得到的多维度特征通过卷积的方式融合为包含3通道的一张彩色图作为输出；

39）将输出结果与所述训练数据对应的标签图中所有像素的均方误差的和作为所述神经网络的损失函数；

3）根据当前待渲染的视点参数和三维场景，执行光子映射方法，生成k张彩色效果图并将该k张彩色效果图在三个通道上叠放，形成3×k×h×w的三维矩阵作为输入数据；然后利用步骤2）训练得到的神经网络模型及其各项参数对当前输入数据进行处理，得到最终合成的渲染图像。

2.如权利要求1所述的方法，其特征在于，每个阶段stage由若干个残差结构块连接而成。

3.如权利要求1所述的方法，其特征在于，第一卷积层利用7×7卷积抽取训练数据的低层特征。

4.如权利要求3所述的方法，其特征在于，所述步骤33）中，对第二阶段stage2压缩后的训练数据进行1×1的卷积；所述步骤35）中，对第一阶段stage1提取的高层特征进行1×1的卷积。

5.如权利要求1所述的方法，其特征在于，步骤33）和步骤35）中的特征连接采用按元素操作的方法；每个数据层都包含多张尺寸相同的图像且不同数据层包含的图像数量不等，通过多张尺寸相同的图像表示该数据层的多维度特征，图像尺寸不同的层之间的数据的维度也不同。

6.如权利要求1所述的方法，其特征在于，采用不同的视点位置生成不同组图像数据。

7.如权利要求1所述的方法，其特征在于，采用不同的观察方向生成不同组图像数据。

8.如权利要求1所述的方法，其特征在于，k取值为10或者20。