CN111583135B - 一种核预测神经网络蒙特卡罗渲染图像去噪方法 - Google Patents
一种核预测神经网络蒙特卡罗渲染图像去噪方法 Download PDFInfo
- Publication number
- CN111583135B CN111583135B CN202010332918.1A CN202010332918A CN111583135B CN 111583135 B CN111583135 B CN 111583135B CN 202010332918 A CN202010332918 A CN 202010332918A CN 111583135 B CN111583135 B CN 111583135B
- Authority
- CN
- China
- Prior art keywords
- image
- kernel
- layer
- convolutional
- monte carlo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 46
- 230000004913 activation Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 12
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 6
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 235000004035 Cryptotaenia japonica Nutrition 0.000 description 3
- 244000146493 Cryptotaenia japonica Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- WFKWXMTUELFFGS-UHFFFAOYSA-N tungsten Chemical compound [W] WFKWXMTUELFFGS-UHFFFAOYSA-N 0.000 description 3
- 229910052721 tungsten Inorganic materials 0.000 description 3
- 239000010937 tungsten Substances 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种核预测神经网络蒙特卡罗渲染图像去噪方法,包括步骤:1)利用改进的核预测神经网络进行预测核的生成;2)利用改进的对抗生成网络进行蒙特卡罗渲染图像的初步去噪;3)利用步骤1)、2)当中的两个结果进行蒙特卡罗渲染图像的重建,预测核将会被应用到初步去噪的蒙特卡罗渲染图像当中,并重建出去噪后的蒙特卡罗渲染图像;4)使用一种新的损失函数对核预测神经网络和对抗生成网络进行训练;5)训练完成后,再次重复步骤1)到步骤3),即可对带噪声的蒙特卡罗渲染图像进行去噪重建,最后获得一张高质量的、细节完好的蒙特卡罗渲染图像。本发明去噪效果更好,场景细节和场景结构保留好,去噪时间短,可适应低采样率和多种渲染器、渲染***。
Description
技术领域
本发明涉及计算机图形学当中的三维场景图像离线渲染及深度学习图像处理领域,尤其是指一种基于GAN边缘与细节感知的核预测神经网络蒙特卡罗渲染图像去噪方法。
背景技术
在全局光照的渲染技术上,基于蒙特卡罗(Monte Carlo)积分方法的渲染技术已经在计算机动画、游戏以及视觉产品上上面广泛应用。基于蒙特卡罗计分方法的渲染技术可以有效的估计一个场景下的光照度(Radiance),是一个有偏差的方法,但由于对光照路径进行的是随机采样过程,因此采样过程中会无可避免的产生误差,这些误差最后会导致渲染出来的图像当中产生噪声点,也称为蒙特卡罗渲染噪声。这种噪声与普通图像噪声不同,不同的像素之间具有很强的差异性,因此传统的处理图像噪声的方法在处理蒙特卡罗渲染噪声时表现较差。为了减少产生的噪声点,使渲染的图像更加真实,基于蒙特卡罗积分方法的渲染技术往往需要花费大量的渲染时间并设置高采样率(sample per pixel)去产生一张具有真实感的渲染图像,而渲染的时间越少,采样率越低,则产生的噪声则会越多,这也为实际的工业制作中带来了比较大的时间花销,限制了制作效率。除此之外,在渲染的过程当中,假如图像的分辨率越大,计算量也会增加,构建光路的过程当中也会进一步带来误差,从而产生噪声。因此,基于蒙特卡罗积分方法的渲染技术虽然已经受到广泛采用,但仍存在着一定的限制性。在需要渲染一张高分辨率的具有真实感的图像时,往往需要在高采样率的设置下耗费十几个小时来渲染才能获取这样一张图像,这样的时间成本和计算成本十分巨大,因此假如能在短时间内获取同样质量的图像,将会节省大量的时间成本和计算成本,提高生产效率。
深度学习方法是当前较为流行的一种图像处理方法,而在这其中,对抗生成网络(GAN)在图像邻域当中有着广泛的应用,包括图像识别、图像风格转移、图像修复、图像重建等等,并且都有较好的效果。核预测网络则是一直应用于蒙特卡罗渲染图像的去噪研究工作当中。
本发明在了解和认识了近年来的研究状况后,探究利用改进的核预测网络以及对抗生成网络(GAN)完成对带噪声的蒙特卡罗渲染图像的去噪和重建。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于GAN边缘与细节感知的核预测神经网络蒙特卡罗渲染图像去噪方法,该方法能够在十分短的时间内输出一张完好保留场景细节及场景结构的渲染图像,并且能够适应十分低的采样率渲染图像作为输入,以及能够适应多种渲染器或者渲染***。
为实现上述目的,本发明所提供的技术方案为:一种核预测神经网络蒙特卡罗渲染图像去噪方法,包括以下步骤:
1)利用改进的核预测神经网络进行预测核的生成,该核预测神经网络以带噪声的蒙特卡罗渲染图像所对应的辅助信息图像作为输入,所述辅助信息图像有法向量图像、深度图像、反照率图像、漫反射图像和高光图像,并针对蒙特卡罗渲染图像中的每个像素输出一个预测核;
2)利用改进的对抗生成网络(GAN)进行蒙特卡罗渲染图像的初步去噪,该对抗生成网络以带噪声的RGB蒙特卡罗渲染图像作为输入,并输出一张初步去噪的RGB图像结果;
3)利用步骤1)和步骤2)当中的两个结果进行蒙特卡罗渲染图像的重建,即利用步骤1)所产生的预测核对由步骤2)生成的初步去噪图像进行更进一步的图像重建,获得完全去噪后的蒙特卡罗渲染图像;
4)使用一种新的损失函数对核预测神经网络和对抗生成网络进行协同训练,该损失函数能够使得两个网络协同工作,并完好保留场景细节和场景结构,从而使得这两个网络成为一个端到端的整体结构;
5)训练完成后,再次重复步骤1)到步骤3),即可对带噪声的蒙特卡罗渲染图像进行去噪重建,最后获得一张高质量的、细节完好的蒙特卡罗渲染图像。
在步骤1)中,所述核预测神经网络的结构分为三个部分,分别为源信息编码器、特征信息编码器和核预测器;该核预测神经网络结构以蒙特卡罗渲染图像所对应的辅助信息图像作为输入,所述辅助信息图像有法向量图像、深度图像、反照率图像、漫反射图像和高光图像,其中,所述漫反射图像和高光图像是将蒙特卡罗渲染图像当中的漫反射颜色以及高光颜色单独提取出来制成的图像,代表图像的像素颜色当中漫反射以及高光的部分;
所述源信息编码器是一个神经网络结构,包含三层零填充(padding)的核大小为3×3的卷积层,每层卷积层的输出通道数量为64,滑动步长(stride)为1,在每一层卷积层后面,使用Leaky-Relu作为激活函数;通过三层的卷积层能够有效地从不同输入当中提取一个底层的、具有共通信息的特征图像,进而能够构建一个动态组装的网络结构,如果输入的蒙特卡罗渲染图像来源于与训练集数据不同的渲染***,则只需要将这个源信息编码器的参数重新训练,并将后端的网络结构参数固定即可;
所述特征信息编码器是以源信息编码器的输出作为输入,该特征信息编码器包含一个类U型网络的结构,其所采用的网络结构实际上是一个编码解码器的对称结构,并额外加入了跳跃结构,所述跳跃结构实际上是将输入与输出使用联合的方法(concatenation)相连接起来;所述类U型网络分为编码和解码部分,其编码部分包含9层卷积层,前3层卷积层各输出的通道数为128,中间3层卷积层各输出的通道数为256,最后3层卷积层各输出的通道数为512,每层卷积层后面使用Batch-Normalization进行归一化,并使用Leaky-Relu作为激活函数,第3个卷积层与第4个卷积层及第6个卷积层与第7个卷积层使用下采样连接;所述解码部分拥有与编码部分相对称的结构,在编码部分中,其第3个卷积层和第6个卷积层分别会通过跳跃结构来将它们的输出与解码部分的第1个卷积层和第3个卷积层通过上采样后的输出进行联合;所述特征信息编码的整个网络结构的每一层卷积层使用的是零填充的核大小为3×3的卷积层,滑动步长为1,同时每一层卷积层后面都使用Leaky-Relu作为激活函数,而网络当中的下采样使用2×2的最大池化方法,而上采样则使用双线性插值的方法;
所述核预测器是针对图像每一个像素输出一个预测核,核的大小为21×21,包含441个权重值,所述核预测器包含两个卷积层,每个卷积层使用零填充的核大小为1×1的卷积核,滑动步长为1,每层卷积层的输出通道数为441。
在步骤2)中,所述对抗生成网络以带噪声的RGB蒙特卡罗渲染图像作为输入,其网络结构分为两部分,一个是生成器,另一个是判别器;
所述生成器分为三部分,第一部分为编码器与解码器所形成的基本网络结构,所述编码器包含有4层卷积层,每一层卷积层包含卷积、实例归一化(InstanceNorm)以及ReLu激活三个操作,第一层卷积层含有64个卷积核,即输出通道数量为64,每个卷积核大小为3×3,滑动步长为2,第二个卷积层、第三个卷积层及第四个卷积层的卷积核数量分别为128、256和512,卷积核大小为3×3不变,核数量不变,滑动步长为2,所述解码器与编码器的结构成对称关系,所述解码器包含有4层反卷积层(deconvolution),每层反卷积层由反卷积、实例归一化及ReLu激活三个操作组成,4层反卷积层的卷积核数量分别为512、256、128、64,卷积核大小同样为3×3,滑动步长为0.5,在解码器的最后,为了输出一张3通道的RGB图像,额外设置了一个卷积层,这层卷积层与编码器的卷积层不同的是:这层卷积层输出通道数为3,滑动步长为1,激活函数使用Tanh函数;
所述生成器的编码器和解码器中间设有4个残差块,一个残差块包含有2个卷积层,每层卷积层包含有512个卷积核,卷积核大小为3×3,滑动步长为1,同样每一层卷积层包含卷积、实例归一化(InstanceNorm)以及ReLu激活三个操作;
所述判别器采用多规模判别器的结构,包含有3个判别器,每个判别器具有相同的结构,但输入的图像分辨率不相同,分别是生成器所生成图像的1/1、1/2、1/4下采样图像,单个判别器具有6层卷积层,每层卷积层的卷积核大小为3×3,除了最后一层卷积层,其余卷积层的卷积核数量分别为64、128、256、512、512,滑动步长为2,最后一层卷积层的卷积核大小为3×3,滑动步长为1,卷积核数量为1,即输出的通道数量为1,与生成器不同,所述判别器当中的卷积层均不采用归一化,每一层卷积层只包含卷积和Leaky-Relu激活两个操作。
在步骤3)中,将利用步骤1)所产生的预测核对由步骤2)生成的初步去噪图像进行更进一步的图像重建,以获得最终的去噪的蒙特卡罗渲染图像,具体如下:
通过核预测神经网络所获得的预测核K是针对每一个像素的,记Kp为像素p的预测核,为了保证其权重值的范围在[0,1]以内,并且加和等于1,首先使用softmax函数对其进行归一化:
接着利用公式(1)获得像素p的最终值:
在步骤4)中,使用一种新的损失函数进行训练,该损失函数包含三项,具体如下:
记数据集为D={(x1,g1),(x2,g2),...,(xN,gN)},其中N为图片的数量,xi为数据集中的一个蒙特卡罗渲染图像数据集合:x={c,f},其中c表示带有噪声的RGB颜色图像,f表示辅助特征信息集合,包含有法向图像、深度图像、反照率图像、高光图像以及散射图像;gi为与xi相对应的真实图像(groundtruth);
损失函数的第一项为:
式中,S为带有噪声的RGB颜色图像中的像素总数量,cn为带有噪声RGB图像中的第n个像素的像素值,gn为对应的真实图像的像素值,Dk(cn,gn)表示以cn所对应的gn作为第k个判别器的输入所获得的输出,为将核预测神经网络所获得的预测核应用到对抗生成网络当中的生成器输出之后的结果值,为将作为第k个判别器的输入所获得的输出,E[]表示数学期望,即对数据集当中的所有样本所计算的损失值进行求平均计算;
损失函数的第二项为:
损失函数的第三项为:
在有了以上的损失函数,使用的总损失函数为联合公式(3)、(4)、(5),即为:
loss=αLGAN+βLK+λLT (6)
式中,α、β以及λ为平衡参数。
本发明与现有技术相比,具有如下优点与有益效果:
1、去噪效果更好,场景细节和场景结构保留更好。与过往的相关研究工作相比,本发明对核预测神经网络进行改进,并将其与对抗生成网络进行结合,产生的结果能够很好的保留场景细节及场景结构,完好的去除蒙特卡罗渲染图像中的噪声。
2、去噪时间短,能够适应低采样率。本发明所提供的技术方案能够在以4spp的采样率作为输入的情况下,以GPU型号Nvidia GeForce 2080Ti及GPU型号Intel Xeon E52.50GHz、内存16Gb的硬件环境下,运行速度为10-12s每张图像。
3、能够适应多种渲染器和渲染***。本发明所提供的技术方案能够适应多种渲染器和渲染***,包括PBRT渲染器、Tungsten渲染器以及Mitsuba渲染器等等。
附图说明
图1为本发明的总体网络结构图。
图2为本发明所使用的核预测神经网络当中的类U型网络结构图。
图3为本发明中使用的对抗生成网络当中的生成器结构图。
图4为本发明中使用的对抗生成网络当中的单个判别器结构图。
图5为本发明的一例蒙特卡罗渲染图像去噪结果。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的核预测神经网络蒙特卡罗渲染图像去噪方法,基于GAN边缘与细节感知,其具体实施步骤如下:
1)数据集准备
使用公开的三维室内场景数据来生成训练集,主要使用了网上一些公开的免费场景模型。首先从互联网上的搜集了多个个免费的三维室内模型,例如客厅、厨房、走廊、客房等等,利用Tungsten渲染器、Renderman渲染器、Mitsuba渲染器以及PBRT渲染器分别对这些三维模型进行渲染。对于每个场景模型,在渲染的时候选取了场景当中30个随机的相机位置,同时每个位置采用4个不同的拍摄角度。对于每个渲染器,渲染的时候使用4spp(sampleper pixel)采样率进行渲染,每张渲染时间限制为10分钟,每张图片分辨率为512×512,采样率较低以及渲染时间较短,通过这样的渲染设置,获得了7200张带有噪声的渲染图像。另一方面,为了获取对应的真实图像,在渲染带有噪声的图像的同时,改变渲染器采样率为8192spp,将渲染时间限制为2小时,以这样的渲染设置获得了对应的7200张真实图像,在渲染器渲染图像的时候,同时将渲染器当中的辅助特征缓冲区当中的数据提取出来,或是利用渲染器自带的生成功能里,生成相应的辅助特征信息图像,包括法向量图像、深度图像、反照率图像、高光图像以及漫反射图像。
另外从互联网上的搜集了30个免费的三维室内模型制作测试集,分别使用Tungsten以及Mitsuba渲染器进行渲染,对于每个场景同样是设置了30个随机的相机位置,每个位置采用4个不同的拍摄角度。渲染的设置与训练集相同。每种渲染器分别以低采样率和短时间的设置以及高采样率和长时间的设置进行渲染。
2)构建网络
在Linux***上使用pytorch 1.4深度学习框架进行网络的构建,使用语言为python 3.6。构建的网络结构如图1所示。其中,核预测神经网络以蒙特卡罗渲染所对应的法向量图像、深度图像、反照率图像、漫反射图像和高光图像作为输入,并针对蒙特卡罗渲染图像中的每个像素输出一个预测核。
首先构建核预测神经网络,该网络的结构可以分为三个部分,分别是源信息编码器,特征信息编码器以及核预测器。
源信息编码器包含了三层零填充(padding)的核大小为3×3的卷积层,每层卷积层的输出通道数量为64,滑动步长(stride)为1,在每一层卷积层后面,使用Leaky-Relu作为激活函数。
第二部分是特征信息编码器。图2为特征信息编码结构图,由源信息编码器的输出作为这一部分结构的输入。该结构包含了一个类似于U型网络的结构,类U型结构也可以分为编码和解码部分,编码包含9层卷积层,前三层卷积层各输出的通道数为128,中间三层卷积层各输出的通道数为256,最后三层卷积层各输出的通道数为512,每层卷积层后面使用Batch-Normalization进行归一化,并进行使用Leaky-Relu作为激活函数。在编码部分的第3个卷积层与第4个卷积层、第6个卷积层与第7个卷积层使用下采样连接。解码部分则拥与编码部分相对称的结构。在编码部分的第3个卷积层以及第6个卷积层的输出分别会通过跳跃结构来将它们与解码部分的第1个卷积层以及第3个卷积层通过上采样后的输出进行联合。整个网络结构每一层卷积层使用的是零填充的核大小为3×3的卷积层,滑动步长为1,同时每一层卷积层后面都使用了Leaky-Relu作为激活函数,而网络当中的下采样使用2×2的最大池化方法,而上采样则使用双线性插值的方法。
第三部分是核预测器,核预测器的目的即是针对图像每一个像素输出一个预测核,核的大小为21×21,包含了441个权重值。因此,核预测器包含了两个卷积层,每个卷积层层使用零填充的核大小为1×1的卷积核,滑动步长为1,每层卷积层的输出通道数为441。
构建对抗生成网络进行蒙特卡罗渲染图像的初步去噪,该网络以带噪声的RGB蒙特卡罗渲染图像作为输入,并输出一张初步去噪的RGB图像,其网络结构主要分为两部分,一个是生成器,另一个是判别器。
生成器可以分为三部分,图3为生成器结构。第一部分为编码器与解码器所形成的基本网络结构,编码器包含了4层卷积层,每一层卷积层包含了卷积、实例归一化(InstanceNorm)以及ReLu激活三个操作。第一层卷积层含有64个卷积核,即输出通道数量为64,每个卷积核大小为3×3,滑动步长为2。类似地,第二个卷积层、第三个卷积层和第四个卷积层的卷积核数量分别为128、256和512,卷积核大小为3×3不变,核数量不变,滑动步长为2。解码器与编码器的结构成对称结构。解码器包含有4层反卷积层(deconvolution),每层反卷积层由反卷积、实例归一化和ReLu激活三个操作组成。每层反卷积层的卷积核数量分别为512、256、128、64,卷积核大小同样为3×3,滑动步长为0.5。在解码器的最后,为了输出一张3通道的RGB图像,额外设置了一个卷积层,这层卷积层输出通道数为3,滑动步长为1,激活函数使用Tanh函数。
在生成器的编码器和解码器中间则是4个残差块,一个残差块包含了2个卷积层,每层卷积层包含了512个卷积核,卷积核大小为3×3,滑动步长为1,同样每一层卷积层包含了卷积,实例归一化(InstanceNorm)以及ReLu激活三个操作。
判别器则采用多规模判别器的结构,其中包含了3个判别器,图4为单个判别器的结构。每个判别器具有相同的结构,但输入的图像分辨率不相同,分别是生成器所生成的图像的1/1、1/2、1/4下采样图像。单个判别器具有6层卷积层,每层卷积层的卷积核大小为3×3,除了最后一层卷积层,其余卷积层的卷积核数量分别为64、128、256、512、512,滑动步长为2。最后一层卷积层的卷积核大小为3×3,滑动步长为1,卷积核数量为1,即输出的通道数量为1。
利用核预测神经网络以及对抗生成网络分别输出的两个结果进行蒙特卡罗渲染图像的重建,预测核将会被应用到初步去噪的RGB图像当中,并重建出最终的高质量去噪的蒙特卡罗渲染图像。具体如下:
记Kp为像素p的预测核,为了保证其权重值的范围在[0,1]以内,并且加和等于1,首先使用softmax函数对其进行归一化:
接着利用公式(1)获得像素p的最终值:
3)使用一种新的损失函数对核预测神经网络和对抗生成网络进行协同训练,该损失函数能够使得核预测神经网络和对抗生成网络协同工作,同时能够完好保留场景细节和场景结构,从而使得这两个网络成为一个端到端的整体结构。该损失函数包含三项,具体如下:
记数据集为D={(x1,g1),(x2,g2),...,(xN,gN)},其中N为图片的数量,xi为数据集中的一个蒙特卡罗渲染图像数据集合:x={c,f},其中c表示带有噪声的RGB颜色图像,f表示辅助特征信息图像集合,包含有法向量图像、深度图像、反照率图像、漫反射图像和高光图像;gi为与xi相对应的真实图像(groundtruth);
损失函数的第一项为:
式中,S为带有噪声的RGB颜色图像中的像素总数量,cn为带有噪声RGB图像中的第n个像素的像素值,gn为对应的真实图像的像素值,Dk(cn,gn)表示以cn所对应的gn作为第k个判别器的输入所获得的输出,为将核预测神经网络所获得的预测核应用到对抗生成网络当中的生成器输出之后的结果值,为将作为第k个判别器的输入所获得的输出,E[]表示数学期望,即对数据集当中的所有样本所计算的损失值进行求平均计算;
损失函数的第二项为:
损失函数的第三项为:
在有了以上的损失函数,使用的总损失函数为联合公式(3)、(4)、(5),即为:
loss=αLGAN+βLK+λLT (6)
式中,α、β以及λ为平衡参数。接着即可使用建立的数据集对网络模型进行训练。
利用本发明提供的技术方案当中的设计的损失函数进行训练,其中,α、β以及λ分别设置为0.413、0.369以及0.218。至于优化方法,则使用ADAM求解器进行网络的参数优化,将学习率设置0.0001。把数据集按照批大小为1的批输入到整个网络当中。每次训练迭代完成后都会将数据集的顺序进行随机扰乱。
4)完成训练后,利用训练好的网络即可对输入的带噪声的蒙特卡罗渲染图像进行去噪重建,最终获得一张高质量的、细节完好的无噪声的蒙特卡罗渲染图像。
综上所述,本发明提出的核预测神经网络蒙特卡罗渲染图像去噪方法,即通过结合改进的核预测神经网络与对抗生成网络进行蒙特卡罗渲染图像的去噪重建。经过实验证明其可行性,本发明的技术方案具有去噪质量好、场景细节和场景结构保留完好等特点,并且运行时间短,能够适应低采样率及多渲染器的输入,如图5所示,为本发明的一例三维渲染图像去噪结果。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (1)
1.一种核预测神经网络蒙特卡罗渲染图像去噪方法,其特征在于,包括以下步骤:
1)利用改进的核预测神经网络进行预测核的生成,该核预测神经网络以带噪声的蒙特卡罗渲染图像所对应的辅助信息图像作为输入,所述辅助信息图像有法向量图像、深度图像、反照率图像、漫反射图像和高光图像,并针对蒙特卡罗渲染图像中的每个像素输出一个预测核;
所述核预测神经网络的结构分为三个部分,分别为源信息编码器、特征信息编码器和核预测器;该核预测神经网络结构以蒙特卡罗渲染图像所对应的辅助信息图像作为输入,所述辅助信息图像有法向量图像、深度图像、反照率图像、漫反射图像和高光图像,其中,所述漫反射图像和高光图像是将蒙特卡罗渲染图像当中的漫反射颜色以及高光颜色单独提取出来制成的图像,代表图像的像素颜色当中的中漫反射以及高光的部分;
所述源信息编码器是一个神经网络结构,包含三层零填充的核大小为3×3的卷积层,每层卷积层的输出通道数量为64,滑动步长为1,在每一层卷积层后面,使用Leaky-Relu作为激活函数;通过三层的卷积层能够有效地从不同输入当中提取一个底层的、具有共通信息的特征映射,进而能够构建一个动态组装的网络结构,如果输入的蒙特卡罗渲染图像来源于与训练集数据不同的渲染***,则只需要将这个源信息编码器的参数重新训练,并将后端的网络结构参数固定即可;
所述特征信息编码器是以源信息编码器的输出作为输入,该特征信息编码器包含一个类U型网络的结构,其所采用的网络结构实际上是一个编码解码器的对称结构,并额外加入了跳跃结构,所述跳跃结构实际上是将输入与输出使用联合的方法相连接起来;所述类U型网络分为编码和解码部分,其编码部分包含9层卷积层,前3层卷积层各输出的通道数为128,中间3层卷积层各输出的通道数为256,最后3层卷积层各输出的通道数为512,每层卷积层后面使用Batch-Normalization进行归一化,并使用Leaky-Relu作为激活函数,第3个卷积层与第4个卷积层及第6个卷积层与第7个卷积层使用下采样连接;所述解码部分拥有与编码部分相对称的结构,在编码部分中,其第3个卷积层和第6个卷积层分别会通过跳跃结构来将它们与解码部分的第1个卷积层和第3个卷积层通过上采样后的输出进行联合;所述特征信息编码的整个网络结构的每一层卷积层使用的是零填充的核大小为3×3的卷积层,滑动步长为1,同时每一层卷积层后面都使用Leaky-Relu作为激活函数,而网络当中的下采样使用2×2的最大池化方法,而上采样则使用双线性插值的方法;
所述核预测器是针对蒙特卡罗渲染图像中的每一个像素输出一个预测核,核的大小为21×21,包含441个权重值,所述核预测器包含两个卷积层,每个卷积层使用零填充的核大小为1×1的卷积核,滑动步长为1,每层卷积层的输出通道数为441;
2)利用改进的对抗生成网络进行蒙特卡罗渲染图像的初步去噪,该对抗生成网络以带噪声的RGB蒙特卡罗渲染图像作为输入,并输出一张初步去噪的RGB图像结果;
所述对抗生成网络以带噪声的RGB蒙特卡罗渲染图像作为输入,其网络结构分为两部分,一个是生成器,另一个是判别器;
所述生成器分为三部分,第一部分为编码器与解码器所形成的基本网络结构,所述编码器包含有4层卷积层,每一层卷积层包含卷积、实例归一化以及ReLu激活三个操作,第一层卷积层含有64个卷积核,即输出通道数量为64,每个卷积核大小为3×3,滑动步长为2,第二个卷积层、第三个卷积层及第四个卷积层的卷积核数量分别为128、256和512,卷积核大小为3×3不变,核数量不变,滑动步长为2,所述解码器与编码器的结构成对称关系,所述解码器包含有4层反卷积层,每层反卷积层由反卷积、实例归一化及ReLu激活三个操作组成,4层反卷积层的卷积核数量分别为512、256、128、64,卷积核大小同样为3×3,滑动步长为0.5,在解码器的最后,为了输出一张3通道的RGB图像,额外设置一个卷积层,这层卷积层与编码器的卷积层不同的是:这层卷积层输出通道数为3,滑动步长为1,激活函数使用Tanh函数;
所述生成器的编码器和解码器中间设有4个残差块,一个残差块包含有2个卷积层,每层卷积层包含有512个卷积核,卷积核大小为3×3,滑动步长为1,同样每一层卷积层包含卷积、实例归一化以及ReLu激活三个操作;
所述判别器采用多规模判别器的结构,包含有3个判别器,每个判别器具有相同的结构,但输入的图像分辨率不相同,分别是生成器所生成图像的1/1、1/2、1/4下采样图像,单个判别器具有6层卷积层,每层卷积层的卷积核大小为3×3,除了最后一层卷积层,其余卷积层的卷积核数量分别为64、128、256、512、512,滑动步长为2,最后一层卷积层的卷积核大小为3×3,滑动步长为1,卷积核数量为1,即输出的通道数量为1,与生成器不同,所述判别器当中的卷积层均不采用归一化,每一层卷积层只包含卷积和Leaky-Relu激活两个操作;
3)利用步骤1)和步骤2)当中的两个结果进行蒙特卡罗渲染图像的重建,即利用步骤1)所产生的预测核对由步骤2)生成的初步去噪图像进行更进一步的图像重建,获得完全去噪后的蒙特卡罗渲染图像;
将利用步骤1)所产生的预测核对由步骤2)生成的初步去噪图像进行更进一步的图像重建,以获得最终的去噪的蒙特卡罗渲染图像,具体如下:
通过核预测神经网络所获得的预测核K是针对每一个像素的,记Kp为像素p的预测核,为了保证其权重值的范围在[0,1]以内,并且加和等于1,首先使用softmax函数对其进行归一化:
接着利用公式(1)获得像素p的最终值:
4)使用一种新的损失函数对核预测神经网络和对抗生成网络进行协同训练,该损失函数能够使得两个网络协同工作,并完好保留场景细节和场景结构,从而使得这两个网络成为一个端到端的整体结构;
使用一种新的损失函数进行训练,该损失函数包含三项,具体如下:
记数据集为D={(x1,g1),(x2,g2),...,(xN,gN)},其中N为蒙特卡罗渲染图像的数量,xi为数据集中的一个蒙特卡罗渲染图像数据集合:x={c,f},其中c表示带有噪声的RGB颜色图像,f表示辅助特征信息图像集合,包含有法向图像、深度图像、反照率图像、高光图像以及散射图像;gi为与xi相对应的真实图像;
损失函数的第一项为:
式中,S为带有噪声的RGB颜色图像中的像素总数量,cn为带有噪声RGB图像中的第n个像素的像素值,gn为对应的真实图像的像素值,Dk(cn,gn)表示以cn所对应的gn作为第k个判别器的输入所获得的输出,为将核预测神经网络所获得的预测核应用到对抗生成网络当中的生成器输出之后的结果值,为将作为第k个判别器的输入所获得的输出,E[]表示数学期望,即对数据集当中的所有样本所计算的损失值进行求平均计算;
损失函数的第二项为:
损失函数的第三项为:
在有了以上的损失函数,使用的总损失函数为联合公式(3)、(4)、(5),即为:
loss=αLGAN+βLK+λLT (6)
式中,α、β以及λ为平衡参数;
5)训练完成后,再次重复步骤1)到步骤3),即可对带噪声的蒙特卡罗渲染图像进行去噪重建,最后获得一张高质量的、细节完好的蒙特卡罗渲染图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332918.1A CN111583135B (zh) | 2020-04-24 | 2020-04-24 | 一种核预测神经网络蒙特卡罗渲染图像去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332918.1A CN111583135B (zh) | 2020-04-24 | 2020-04-24 | 一种核预测神经网络蒙特卡罗渲染图像去噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111583135A CN111583135A (zh) | 2020-08-25 |
CN111583135B true CN111583135B (zh) | 2023-04-07 |
Family
ID=72111629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010332918.1A Active CN111583135B (zh) | 2020-04-24 | 2020-04-24 | 一种核预测神经网络蒙特卡罗渲染图像去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583135B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11540798B2 (en) | 2019-08-30 | 2023-01-03 | The Research Foundation For The State University Of New York | Dilated convolutional neural network system and method for positron emission tomography (PET) image denoising |
CN112183637B (zh) * | 2020-09-29 | 2024-04-09 | 中科方寸知微(南京)科技有限公司 | 一种基于神经网络的单光源场景光照重渲染方法及*** |
CN112562059B (zh) * | 2020-11-24 | 2023-12-08 | 革点科技(深圳)有限公司 | 一种自动化结构光图案设计方法 |
CN112419492B (zh) * | 2020-12-14 | 2022-08-23 | 长春理工大学 | 视觉感知驱动蒙卡渲染像素路径采样数自适应控制方法 |
CN113052759B (zh) * | 2021-03-31 | 2023-03-21 | 华南理工大学 | 基于mask和自动编码器的场景复杂文本图像编辑方法 |
CN113628126B (zh) * | 2021-06-29 | 2022-03-01 | 光线云(杭州)科技有限公司 | 基于重要度特征图共享的实时蒙特卡洛路径追踪降噪方法、装置和计算机设备 |
CN115908157A (zh) * | 2021-09-30 | 2023-04-04 | 想象技术有限公司 | 渲染3d场景的图像 |
CN114781446B (zh) * | 2022-04-11 | 2022-12-09 | 山东省人工智能研究院 | 一种基于hin网络和梯度差损失的心电信号降噪方法 |
CN116016064B (zh) * | 2023-01-12 | 2024-06-28 | 西安电子科技大学 | 基于u型卷积去噪自编码器的通信信号降噪方法 |
CN116167940A (zh) * | 2023-02-24 | 2023-05-26 | 西安石油大学 | 一种基于卷积神经网络的地震图像去噪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765319A (zh) * | 2018-05-09 | 2018-11-06 | 大连理工大学 | 一种基于生成对抗网络的图像去噪方法 |
CN110473154A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于生成对抗网络的图像去噪方法 |
-
2020
- 2020-04-24 CN CN202010332918.1A patent/CN111583135B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765319A (zh) * | 2018-05-09 | 2018-11-06 | 大连理工大学 | 一种基于生成对抗网络的图像去噪方法 |
CN110473154A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于生成对抗网络的图像去噪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111583135A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583135B (zh) | 一种核预测神经网络蒙特卡罗渲染图像去噪方法 | |
US10789686B2 (en) | Denoising Monte Carlo renderings using machine learning with importance sampling | |
Nalbach et al. | Deep shading: convolutional neural networks for screen space shading | |
Weiss et al. | Volumetric isosurface rendering with deep learning-based super-resolution | |
CN111739078A (zh) | 一种基于上下文注意力机制的单目无监督深度估计方法 | |
US20220335636A1 (en) | Scene reconstruction using geometry and reflectance volume representation of scene | |
CN108830913B (zh) | 基于用户颜色引导的语义级别线稿上色方法 | |
CN111986075B (zh) | 一种目标边缘清晰化的风格迁移方法 | |
CN109785279B (zh) | 一种基于深度学习的图像融合重建方法 | |
CN112884668A (zh) | 基于多尺度的轻量级低光图像增强方法 | |
CN113744136A (zh) | 基于通道约束多特征融合的图像超分辨率重建方法和*** | |
CN113870124A (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN115797561A (zh) | 三维重建方法、设备及可读存储介质 | |
CN115526223A (zh) | 潜在空间中的基于得分的生成建模 | |
CN114549387A (zh) | 一种基于伪标签的人脸图像高光去除方法 | |
CN114972619A (zh) | 一种基于自对齐双重回归的单图像人脸三维重建方法 | |
CN116051696B (zh) | 一种可重光照的人体隐式模型的重建方法和装置 | |
CN115587967B (zh) | 一种基于HA-UNet网络的眼底图像视盘检测方法 | |
Gupta et al. | MCNeRF: Monte Carlo rendering and denoising for real-time NeRFs | |
CN113593007B (zh) | 一种基于变分自编码的单视图三维点云重建方法及*** | |
CN115457182A (zh) | 一种基于多平面图像场景表示的交互视点图像合成方法 | |
Teng et al. | Blind face restoration via multi-prior collaboration and adaptive feature fusion | |
Ganeeva et al. | The impact of intermediate video frames reconstruction step on the result of 3D reconstruction of objects | |
CN113160081A (zh) | 一种基于感知去模糊的深度人脸图像修复方法 | |
Hou et al. | Fast Monte Carlo rendering via multi-resolution sampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |