CN108416805B

CN108416805B - 一种基于深度学习的本征图像分解方法及装置

Info

Publication number: CN108416805B
Application number: CN201810201866.7A
Authority: CN
Inventors: 韩广云; 谢晓华; 郑伟诗
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2021-09-24
Anticipated expiration: 2038-03-12
Also published as: CN108416805A

Abstract

本发明公开一种基于深度学习的本征图像分解方法及装置，其中该方法包括在若干3D模型中选取3D模型加载入基于物理的渲染器，随机设置光照，任取视角渲染图片，并通过渲染器获取对应的反射成分和光照成分，以此重复操作，生成大批量的有标注本征图分解的数据集；利用所生成的数据集将全卷积神经网络训练成本征图分解网络；对本征图分解网络进行应用，由预测输出的分解结果，得到期望输出的分解目标。本发明提出的本征图分解方法允许通过图形渲染的方式获取大批量有标注数据集，通过训练深度神经网络，获取鲁棒性良好的分解模型；通过应用损失网络，进一步提高泛化性能并且避免了损失函数的设计困难。

Description

一种基于深度学习的本征图像分解方法及装置

技术领域

本发明涉及本征图分解技术领域，特别涉及一种基于深度学习的本征图像分解方法及装置。

背景技术

现有的本征图分解技术主要有以下几类：

1)基于先验假设的数值优化方法[1,2]。此类方法依赖于如对光照、物体表面、深度等一些物理特性或现象的连续性假设。例如[1]通过依赖于直接和间接辐照度的光滑性假设，构造对应的能量函数和约束，并优化最小平方误差；[2]则通过高斯混合模型学习物体表面几何和光照先验分布，根据相应的观察构造不同成分对应的损失函数并加权做优化，以此来求解对应成分的值达到分解的目的。

2)基于图像平滑的方法[3]。根据经验，反射成分常常呈现分片一致，即具有一种平滑现象。其通过L1正则化实现图像的分片平滑变换。平滑后的图像即可以作为反射成分，而光照成分则可以通过商图像(L＝I/R)获取。

3)基于学习的回归模型方法[4]。当有足够多的数据的时候，基于深度学习的方法往往能获得比手工特征或者启发式方法拥有更好鲁棒性的结果。这种方法通过深度神经网络直接学习一个回归模型，对于给定图像，可以直接输出对应的光照成分和反射成分。

已有的本征图分解技术尚存在很多不足。很多数值优化的方法往往需要针对每个输入进行冗长耗时的优化，限制了其在实时领域的应用。同时，相应的观察和假设有其局限性，仅在特定情况下有效。而基于学习的方法又受数据集标注困难的限制，往往很难获得大量的有密集标注的图片数据集。

参考文献：

[1]Chen Q,Koltun V.A Simple Model for Intrinsic Image Decompositionwith Depth Cues[C].international conference on computer vision,2013:241-248.

[2]Barron J T,Malik J.Shape,Illumination,and Reflectance from Shading[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(8):1670-1687.

[3]Bi S,Han X,Yu Y,et al.An L 1 image transform for edge-preservingsmoothing and scene-level intrinsic decomposition[J].international conferenceon computer graphics and interactive techniques,2015,34(4).

[4]Narihira T,Maire M,Yu S X,et al.Direct Intrinsics:Learning Albedo-Shading Decomposition by Convolutional Regression[J].international conferenceon computer vision,2015:2992-2992.

发明内容

本发明的主要目的是提出一种基于深度学习的本征图像分解方法，旨在克服以上问题。

为实现上述目的，本发明提出的一种基于深度学习的本征图像分解方法，包括如下步骤：

S10在若干3D模型中选取3D模型加载入基于物理的渲染器，随机设置光照，任取视角渲染图片，并通过渲染器获取对应的反射成分和光照成分，以此重复操作，生成大批量的有标注本征图分解的数据集；

S20利用所生成的数据集将全卷积神经网络训练成本征图分解网络；

S30对本征图分解网络进行应用，由预测输出的分解结果，得到期望输出的分解目标。

优选地，所述S20包括：

S201计算像素误差：采用

(3)，以衡量预测值和真实值之间像素误差，其中

表示像素，

是预测输出的分解结果，y是期望输出的分解目标，即生成的数据集对应的真实值，n是有效像素数，i是任意一个有效像素,λ∈0-1之间的实数，为权重，可调；

S202计算特征误差：采用

以用损失网络φ的第l层对应的特征图φ_l来衡量特征误差，其中

表示特征的相似度，l是选取的网络层，φ_l为其对应的特征图，C_l为对应这个特征图的通道数，H_l为对应这个特征图的高度，W_l为对应这个特征图的宽度；

S203计算风格相似度对应的误差：采用

(5)，以通过Gram矩阵来衡量风格相似度，其中

表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素，φ′_l，i表示特征图φ_l中的第i个通道对应的特征，并将这个矩阵φ_l，i按任意固定方式拉伸为向量，则风格相似度对应的误差如公式6所示：

S204结合特征误差和风格相似度对应的误差计算感知误差：采用

其中L_f和L_s表示选用的用于衡量感知误差的激活层，w_l∈0-1之间的实数,为权重，可调；

S205通过梯度对应的Frobenius范数的比值对误差进行加权，以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定，采用

训练全卷积神经网络ψ。

优选地，所述S20之后还包括：采用

对训练后的全卷积神经网络ψ进行优化，其中损失网络φ的参数不更新，全卷积神经网络ψ参数更新。

优选地，所述更新全卷积神经网络ψ参数时采用ADAM优化器。

优选地，所述S30包括：

S301令数据集中任一图像为I，其对应的反射成分为R，对应的光照成分为L，根据Lambertian光照模型，满足以下条件：I＝R⊙L(1)，该函数为图像I等于R和L的逐点乘积；

S302利用全卷积神经网络ψ，达到：

的目的，其中

是预测输出的分解结果，ψ是本征图分解网络，X是网络的实际输入图像，y是期望输出的分解目标，即生成的数据集对应的真实值，若分解目标为反射成分R，则

同理，对于L成分

优选地，所述在若干3D模型中选取3D模型的条件是：选取图中不带光照效果的3D模型。

优选地，所述S10中随机设置光照，任取视角渲染图片之后还包括：S01模拟深度传感器，产生具有Kinect噪声特征的深度图，以此重复操作。

本发明还公开了一种基于深度学习的本征图像分解装置，用以实现上述方法，其包括：

数据集生成模块，用于在若干3D模型中选取3D模型加载入基于物理的渲染器，随机设置光照，任取视角渲染图片，并通过渲染器获取对应的反射成分和光照成分；及模拟深度传感器，产生具有Kinect噪声特征的深度图，以此重复操作，生成大批量的有标注本征图分解的数据集；

神经网络训练模块，用于利用所生成的数据集将全卷积神经网络训练成本征图分解网络；

应用模块，用于对本征图分解网络进行应用，由预测输出的分解结果，得到期望输出的分解目标。

优选地，所述神经网络训练模块包括：

像素误差单元，用于计算像素误差：采用

以衡量预测值和真实值之间像素误差，其中

表示像素，

特征误差单元，用于采用

表示特征的相似度，l是选取的网络层，φ_l为其对应的特征图，C_l为对应这个特征图的通道数，H_l为对应这个特征图的高度，W_l为对应这个特征图的宽度

风格相似度误差单元，用于计算风格相似度对应的误差：采用

以通过Gram矩阵来衡量风格相似度，其中

表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′_l，i表示特征图φ_l中的第i个通道对应的特征，并将这个矩阵φ_l，i按任意固定方式拉伸为向量，则风格相似度对应的误差如公式6所示：

感知误差单元，用于结合特征误差和风格相似度对应的误差计算感知误差：采用

神经训练单元，用于通过梯度对应的Frobenius范数的比值对误差进行加权，以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定，采用

训练全卷积神经网络ψ。

优选地，所述应用模块包括：

函数建立单元，用于令数据集中任一图像为I，其对应的反射成分为R，对应的光照成分为L，根据Lambertian光照模型，满足以下条件：I＝R⊙L(1)，该函数为图像I等于R和L的逐点乘积；

应用单元，用于利用全卷积神经网络ψ，达到：

的目的，其中

同理，对于L成分

本发明提出的本征图分解方法允许通过图形渲染的方式获取大批量有标注数据集，通过训练深度神经网络，获取鲁棒性良好的分解模型；通过应用损失网络，进一步提高泛化性能并且避免了损失函数的设计困难。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的基于深度学习的本征图像分解方法一实施例的流程框图；

图2为本征图分解网络的结构示意图，图2中的全卷积神经网络模型由一个U型网络和后续若干卷积层构成，网络参数标注在箭头上，模型训练后输入特定图像即可产生对应的本征图；

图3为本征图分解网络的训练网络图，其中本征图分解网络ψ如图1所示，损失网络采用预训练的VGG19；

图4为训练后的卷积神经网络ψ在MIT Intrinsic Images数据集上的测试结果图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1-4所示，本发明提出的一种基于深度学习的本征图像分解方法，包括如下步骤：

优选地，所述S20包括：

S201计算像素误差：采用

(3)，以衡量预测值和真实值之间像素误差，其中

表示像素，

S202计算特征误差：采用

S203计算风格相似度对应的误差：采用

(5)，以通过Gram矩阵来衡量风格相似度，其中

表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ_l，i表示特征图φ_l中的第i个通道对应的特征，并将这个矩阵φ_l，i按任意固定方式拉伸为向量，则风格相似度对应的误差如公式6所示：

训练全卷积神经网络ψ。

优选地，所述S20之后还包括：采用

优选地，所述更新全卷积神经网络ψ参数时采用ADAM优化器。

优选地，所述S30包括：

S302利用全卷积神经网络ψ，达到：

的目的，其中

同理，对于L成分

优选地，所述神经网络训练模块包括：

像素误差单元，用于计算像素误差：采用

以衡量预测值和真实值之间像素误差，其中

表示像素，

特征误差单元，用于采用

以通过Gram矩阵来衡量风格相似度，其中

训练全卷积神经网络ψ。

优选地，所述应用模块包括：

应用单元，用于利用全卷积神经网络ψ，达到：

的目的，其中

同理，对于L成分

在本发明实施例中，合成及及训练的流程图如图1所示。完成后即可得到本征图分解网络ψ_R和ψ_L。将网络ψ_R和ψ_L应用于任意合法输入即可得到图片的光照成分L和反射成分R。

1)训练数据合成

取任意3D模型(贴图中不带有光照效果的模型)，加载进基于物理的图形渲染器；随机设置光照，以产生足够复杂的阴影。任取视角渲染彩色图像I_i，并通过渲染器获取对应的反射成分R_i和光照成分L_i。进一步，可以模拟深度传感器——在光线追踪框架下，两个(虚拟)相机，一个相机发射光线检测和三维模型的相交点，另一个相机发射光线，检测这些点是否被遮挡，来达到双目视差的效果，然后通过参数化(如光线方向和模型表面法相相关的方式加入噪声和数据丢失的效果)，产生具有Kinect噪声特征的深度图。重复设置光照或选取视角以产生足够丰富的图片。在足够多的3D模型上重复上述步骤，构造完整训练数据集。

2)神经网络训练

令数据集中任一图像为I，其对应的反射成分和光照成分分别为R和L。根据Lambertian光照模型，满足以下条件：

I＝R⊙L (1)

该函数为图像I等于R和L的逐点乘积。

通过三维模型，并利用基于物理的图形渲染器，只需要少量的三维模型，通过变换视角和光照的方式，可生成大批量的有标注本征图分解数据集。利用此数据集，即可以训练一个学习模型，达成本征图分解的目的而无需过多的先验假设。

在这里，我们希望利用如图2所示的全卷积神经网络ψ，达到：

的目的。

是预测输出的分解结果，ψ是本征图分解网络，X是网络的实际输入图像，y是期望输出的分解目标，即生成的数据集对应的真实值，；x是网络的输入，视不同情况，输入x可以是RGB图像或RGB-D输入；，若分解目标为反射成分R，则

同理，对于L成分

训练上述网络ψ，按照图3所示的训练网络结构图构造网络，其中的损失网络φ(用于构造感知误差)在其他任务上预训练的网络，用于衡量网络ψ的预测输出和真实值之间的误差。在本发明中使用VGG19。其中

用于衡量预测值和真实值之间的像素误差，

表示像素，n是有效像素数，i是任意一个有效像素。

用损失网络φ的第l层对应的特征图φ_l来衡量特征误差：

公式4为特征误差，其所表达的是特征的相似度。其中l是选取的网络层；φ_l为其对应的特征图；C_l为对应这个特征图的通道数，H_l为对应这个特征图的高度、W_l为对应这个特征图的宽度。

通过Gram矩阵来衡量风格相似度：

其中

表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′_l，i表示特征图φ_l中的第i个通道对应的特征，并将这个矩阵φ_l，i按任意固定方式拉伸为向量。

则风格相似度(如颜色等特征)对应的误差如公式6所示。称公式6为风格误差。

感知误差有如公式7所示，由特征误差和风格误差加权而得。感知误差由损失网络φ计算而得。

其中L_f和L_s表示选用的用于衡量感知误差的激活层。所选用的层如图3所示。在本发明中，我们选取VGG19对应的层{relu1_2,relu2_2,relu3_3,relu4_3}为L_f，相应的w_l分别为{1.0,1.0,0.75,0.25}；并取{relu1_1,relu2_1}为L_s，相应的w_l分别为{1.0,1.0}。

最终用于训练神经网络的花费函数如公式8所示。通过梯度对应的Frobenius范数的比值对误差进行加权，以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定的问题。

网络的优化目标即

其中损失网络φ的参数固定，不更新。其中更新网络参数时采用ADAM优化器。

3)本征图分解网络应用

对于本征图分解网络ψ，若其训练目标为R，将其记为ψ_R；若训练目标为L，将其记为ψ_L。使用训练过程中相同成分构成的输入x(即训练过程中采用RGB图片，则此处应同样采用RGB图片，对RGB-D输入同理)。

ψ_R(x)即可得反射成分，ψ_L(x)即可得光照成分。

本发明欲保护：采用物理仿真的形式合成大规模的有标注RGB或RGB-D数据集，并加以利用，用于训练基于学习的本征图分解模型；感知误差(公式7所示)在本征图分解网络学习中的应用。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。