CN108416805B - 一种基于深度学习的本征图像分解方法及装置 - Google Patents

一种基于深度学习的本征图像分解方法及装置 Download PDF

Info

Publication number
CN108416805B
CN108416805B CN201810201866.7A CN201810201866A CN108416805B CN 108416805 B CN108416805 B CN 108416805B CN 201810201866 A CN201810201866 A CN 201810201866A CN 108416805 B CN108416805 B CN 108416805B
Authority
CN
China
Prior art keywords
decomposition
error
network
image
eigen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810201866.7A
Other languages
English (en)
Other versions
CN108416805A (zh
Inventor
韩广云
谢晓华
郑伟诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810201866.7A priority Critical patent/CN108416805B/zh
Publication of CN108416805A publication Critical patent/CN108416805A/zh
Application granted granted Critical
Publication of CN108416805B publication Critical patent/CN108416805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习的本征图像分解方法及装置,其中该方法包括在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;利用所生成的数据集将全卷积神经网络训练成本征图分解网络;对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。本发明提出的本征图分解方法允许通过图形渲染的方式获取大批量有标注数据集,通过训练深度神经网络,获取鲁棒性良好的分解模型;通过应用损失网络,进一步提高泛化性能并且避免了损失函数的设计困难。

Description

一种基于深度学习的本征图像分解方法及装置
技术领域
本发明涉及本征图分解技术领域,特别涉及一种基于深度学习的本征图像分解方法及装置。
背景技术
现有的本征图分解技术主要有以下几类:
1)基于先验假设的数值优化方法[1,2]。此类方法依赖于如对光照、物体表面、深度等一些物理特性或现象的连续性假设。例如[1]通过依赖于直接和间接辐照度的光滑性假设,构造对应的能量函数和约束,并优化最小平方误差;[2]则通过高斯混合模型学习物体表面几何和光照先验分布,根据相应的观察构造不同成分对应的损失函数并加权做优化,以此来求解对应成分的值达到分解的目的。
2)基于图像平滑的方法[3]。根据经验,反射成分常常呈现分片一致,即具有一种平滑现象。其通过L1正则化实现图像的分片平滑变换。平滑后的图像即可以作为反射成分,而光照成分则可以通过商图像(L=I/R)获取。
3)基于学习的回归模型方法[4]。当有足够多的数据的时候,基于深度学习的方法往往能获得比手工特征或者启发式方法拥有更好鲁棒性的结果。这种方法通过深度神经网络直接学习一个回归模型,对于给定图像,可以直接输出对应的光照成分和反射成分。
已有的本征图分解技术尚存在很多不足。很多数值优化的方法往往需要针对每个输入进行冗长耗时的优化,限制了其在实时领域的应用。同时,相应的观察和假设有其局限性,仅在特定情况下有效。而基于学习的方法又受数据集标注困难的限制,往往很难获得大量的有密集标注的图片数据集。
参考文献:
[1]Chen Q,Koltun V.A Simple Model for Intrinsic Image Decompositionwith Depth Cues[C].international conference on computer vision,2013:241-248.
[2]Barron J T,Malik J.Shape,Illumination,and Reflectance from Shading[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(8):1670-1687.
[3]Bi S,Han X,Yu Y,et al.An L 1 image transform for edge-preservingsmoothing and scene-level intrinsic decomposition[J].international conferenceon computer graphics and interactive techniques,2015,34(4).
[4]Narihira T,Maire M,Yu S X,et al.Direct Intrinsics:Learning Albedo-Shading Decomposition by Convolutional Regression[J].international conferenceon computer vision,2015:2992-2992.
发明内容
本发明的主要目的是提出一种基于深度学习的本征图像分解方法,旨在克服以上问题。
为实现上述目的,本发明提出的一种基于深度学习的本征图像分解方法,包括如下步骤:
S10在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;
S20利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
S30对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述S20包括:
S201计算像素误差:采用
Figure BDA0001594718490000021
(3),以衡量预测值和真实值之间像素误差,其中
Figure BDA0001594718490000026
表示像素,
Figure BDA0001594718490000023
是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
S202计算特征误差:采用
Figure BDA0001594718490000024
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中
Figure BDA0001594718490000025
表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度;
S203计算风格相似度对应的误差:采用
Figure BDA0001594718490000031
(5),以通过Gram矩阵来衡量风格相似度,其中
Figure BDA0001594718490000032
表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素,φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
Figure BDA0001594718490000033
S204结合特征误差和风格相似度对应的误差计算感知误差:采用
Figure BDA0001594718490000034
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
S205通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
Figure BDA0001594718490000035
训练全卷积神经网络ψ。
优选地,所述S20之后还包括:采用
Figure BDA0001594718490000036
对训练后的全卷积神经网络ψ进行优化,其中损失网络φ的参数不更新,全卷积神经网络ψ参数更新。
优选地,所述更新全卷积神经网络ψ参数时采用ADAM优化器。
优选地,所述S30包括:
S301令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:I=R⊙L(1),该函数为图像I等于R和L的逐点乘积;
S302利用全卷积神经网络ψ,达到:
Figure BDA0001594718490000037
的目的,其中
Figure BDA0001594718490000038
是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则
Figure BDA0001594718490000041
同理,对于L成分
Figure BDA0001594718490000042
优选地,所述在若干3D模型中选取3D模型的条件是:选取图中不带光照效果的3D模型。
优选地,所述S10中随机设置光照,任取视角渲染图片之后还包括:S01模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作。
本发明还公开了一种基于深度学习的本征图像分解装置,用以实现上述方法,其包括:
数据集生成模块,用于在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分;及模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作,生成大批量的有标注本征图分解的数据集;
神经网络训练模块,用于利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
应用模块,用于对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述神经网络训练模块包括:
像素误差单元,用于计算像素误差:采用
Figure BDA0001594718490000043
以衡量预测值和真实值之间像素误差,其中
Figure BDA0001594718490000049
表示像素,
Figure BDA0001594718490000045
是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
特征误差单元,用于采用
Figure BDA0001594718490000046
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中
Figure BDA0001594718490000047
表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度
风格相似度误差单元,用于计算风格相似度对应的误差:采用
Figure BDA0001594718490000048
以通过Gram矩阵来衡量风格相似度,其中
Figure BDA0001594718490000051
表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
Figure BDA0001594718490000052
感知误差单元,用于结合特征误差和风格相似度对应的误差计算感知误差:采用
Figure BDA0001594718490000053
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
神经训练单元,用于通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
Figure BDA0001594718490000054
训练全卷积神经网络ψ。
优选地,所述应用模块包括:
函数建立单元,用于令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:I=R⊙L(1),该函数为图像I等于R和L的逐点乘积;
应用单元,用于利用全卷积神经网络ψ,达到:
Figure BDA0001594718490000058
的目的,其中
Figure BDA0001594718490000055
是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则
Figure BDA0001594718490000056
同理,对于L成分
Figure BDA0001594718490000057
本发明提出的本征图分解方法允许通过图形渲染的方式获取大批量有标注数据集,通过训练深度神经网络,获取鲁棒性良好的分解模型;通过应用损失网络,进一步提高泛化性能并且避免了损失函数的设计困难。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明的基于深度学习的本征图像分解方法一实施例的流程框图;
图2为本征图分解网络的结构示意图,图2中的全卷积神经网络模型由一个U型网络和后续若干卷积层构成,网络参数标注在箭头上,模型训练后输入特定图像即可产生对应的本征图;
图3为本征图分解网络的训练网络图,其中本征图分解网络ψ如图1所示,损失网络采用预训练的VGG19;
图4为训练后的卷积神经网络ψ在MIT Intrinsic Images数据集上的测试结果图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1-4所示,本发明提出的一种基于深度学习的本征图像分解方法,包括如下步骤:
S10在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;
S20利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
S30对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述S20包括:
S201计算像素误差:采用
Figure BDA0001594718490000071
(3),以衡量预测值和真实值之间像素误差,其中
Figure BDA00015947184900000710
表示像素,
Figure BDA0001594718490000073
是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
S202计算特征误差:采用
Figure BDA0001594718490000074
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中
Figure BDA0001594718490000075
表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度;
S203计算风格相似度对应的误差:采用
Figure BDA0001594718490000076
(5),以通过Gram矩阵来衡量风格相似度,其中
Figure BDA0001594718490000077
表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φl,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
Figure BDA0001594718490000078
S204结合特征误差和风格相似度对应的误差计算感知误差:采用
Figure BDA0001594718490000079
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
S205通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
Figure BDA0001594718490000081
训练全卷积神经网络ψ。
优选地,所述S20之后还包括:采用
Figure BDA0001594718490000082
对训练后的全卷积神经网络ψ进行优化,其中损失网络φ的参数不更新,全卷积神经网络ψ参数更新。
优选地,所述更新全卷积神经网络ψ参数时采用ADAM优化器。
优选地,所述S30包括:
S301令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:I=R⊙L(1),该函数为图像I等于R和L的逐点乘积;
S302利用全卷积神经网络ψ,达到:
Figure BDA0001594718490000083
的目的,其中
Figure BDA0001594718490000084
是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则
Figure BDA0001594718490000085
同理,对于L成分
Figure BDA0001594718490000086
优选地,所述在若干3D模型中选取3D模型的条件是:选取图中不带光照效果的3D模型。
优选地,所述S10中随机设置光照,任取视角渲染图片之后还包括:S01模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作。
本发明还公开了一种基于深度学习的本征图像分解装置,用以实现上述方法,其包括:
数据集生成模块,用于在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分;及模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作,生成大批量的有标注本征图分解的数据集;
神经网络训练模块,用于利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
应用模块,用于对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述神经网络训练模块包括:
像素误差单元,用于计算像素误差:采用
Figure BDA0001594718490000091
以衡量预测值和真实值之间像素误差,其中
Figure BDA00015947184900000911
表示像素,
Figure BDA0001594718490000093
是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
特征误差单元,用于采用
Figure BDA0001594718490000094
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中
Figure BDA0001594718490000095
表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度
风格相似度误差单元,用于计算风格相似度对应的误差:采用
Figure BDA0001594718490000096
以通过Gram矩阵来衡量风格相似度,其中
Figure BDA0001594718490000097
表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
Figure BDA0001594718490000098
感知误差单元,用于结合特征误差和风格相似度对应的误差计算感知误差:采用
Figure BDA0001594718490000099
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
神经训练单元,用于通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
Figure BDA00015947184900000910
训练全卷积神经网络ψ。
优选地,所述应用模块包括:
函数建立单元,用于令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:I=R⊙L(1),该函数为图像I等于R和L的逐点乘积;
应用单元,用于利用全卷积神经网络ψ,达到:
Figure BDA0001594718490000101
的目的,其中
Figure BDA0001594718490000102
是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则
Figure BDA0001594718490000103
同理,对于L成分
Figure BDA0001594718490000104
在本发明实施例中,合成及及训练的流程图如图1所示。完成后即可得到本征图分解网络ψR和ψL。将网络ψR和ψL应用于任意合法输入即可得到图片的光照成分L和反射成分R。
1)训练数据合成
取任意3D模型(贴图中不带有光照效果的模型),加载进基于物理的图形渲染器;随机设置光照,以产生足够复杂的阴影。任取视角渲染彩色图像Ii,并通过渲染器获取对应的反射成分Ri和光照成分Li。进一步,可以模拟深度传感器——在光线追踪框架下,两个(虚拟)相机,一个相机发射光线检测和三维模型的相交点,另一个相机发射光线,检测这些点是否被遮挡,来达到双目视差的效果,然后通过参数化(如光线方向和模型表面法相相关的方式加入噪声和数据丢失的效果),产生具有Kinect噪声特征的深度图。重复设置光照或选取视角以产生足够丰富的图片。在足够多的3D模型上重复上述步骤,构造完整训练数据集。
2)神经网络训练
令数据集中任一图像为I,其对应的反射成分和光照成分分别为R和L。根据Lambertian光照模型,满足以下条件:
I=R⊙L (1)
该函数为图像I等于R和L的逐点乘积。
通过三维模型,并利用基于物理的图形渲染器,只需要少量的三维模型,通过变换视角和光照的方式,可生成大批量的有标注本征图分解数据集。利用此数据集,即可以训练一个学习模型,达成本征图分解的目的而无需过多的先验假设。
在这里,我们希望利用如图2所示的全卷积神经网络ψ,达到:
Figure BDA0001594718490000111
的目的。
Figure BDA0001594718490000112
是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,;x是网络的输入,视不同情况,输入x可以是RGB图像或RGB-D输入;,若分解目标为反射成分R,则
Figure BDA0001594718490000113
同理,对于L成分
Figure BDA0001594718490000114
训练上述网络ψ,按照图3所示的训练网络结构图构造网络,其中的损失网络φ(用于构造感知误差)在其他任务上预训练的网络,用于衡量网络ψ的预测输出和真实值之间的误差。在本发明中使用VGG19。其中
Figure BDA0001594718490000115
用于衡量预测值和真实值之间的像素误差,
Figure BDA00015947184900001112
表示像素,n是有效像素数,i是任意一个有效像素。
用损失网络φ的第l层对应的特征图φl来衡量特征误差:
Figure BDA0001594718490000117
公式4为特征误差,其所表达的是特征的相似度。其中l是选取的网络层;φl为其对应的特征图;Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度、Wl为对应这个特征图的宽度。
通过Gram矩阵来衡量风格相似度:
Figure BDA0001594718490000118
其中
Figure BDA0001594718490000119
表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量。
Figure BDA00015947184900001110
则风格相似度(如颜色等特征)对应的误差如公式6所示。称公式6为风格误差。
感知误差有如公式7所示,由特征误差和风格误差加权而得。感知误差由损失网络φ计算而得。
Figure BDA00015947184900001111
其中Lf和Ls表示选用的用于衡量感知误差的激活层。所选用的层如图3所示。在本发明中,我们选取VGG19对应的层{relu1_2,relu2_2,relu3_3,relu4_3}为Lf,相应的wl分别为{1.0,1.0,0.75,0.25};并取{relu1_1,relu2_1}为Ls,相应的wl分别为{1.0,1.0}。
最终用于训练神经网络的花费函数如公式8所示。通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定的问题。
Figure BDA0001594718490000121
网络的优化目标即
Figure BDA0001594718490000122
其中损失网络φ的参数固定,不更新。其中更新网络参数时采用ADAM优化器。
3)本征图分解网络应用
对于本征图分解网络ψ,若其训练目标为R,将其记为ψR;若训练目标为L,将其记为ψL。使用训练过程中相同成分构成的输入x(即训练过程中采用RGB图片,则此处应同样采用RGB图片,对RGB-D输入同理)。
ψR(x)即可得反射成分,ψL(x)即可得光照成分。
本发明欲保护:采用物理仿真的形式合成大规模的有标注RGB或RGB-D数据集,并加以利用,用于训练基于学习的本征图分解模型;感知误差(公式7所示)在本征图分解网络学习中的应用。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (8)

1.一种基于深度学习的本征图像分解方法,其特征在于,包括如下步骤:
S10在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;
S20利用所生成的数据集将全卷积神经网络训练成本征图分解网络,包括:
S201计算像素误差:采用
Figure FDA0003142323710000011
Figure FDA0003142323710000012
以衡量预测值和真实值之间像素误差,其中
Figure FDA0003142323710000013
表示像素误差,
Figure FDA0003142323710000014
是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈(0,1),为权重,可调;
S202计算特征误差:采用
Figure FDA0003142323710000015
Figure FDA0003142323710000016
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中
Figure FDA0003142323710000017
表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度;
S203计算风格相似度对应的误差:采用
Figure FDA0003142323710000018
Figure FDA0003142323710000019
以通过Gram矩阵来衡量风格相似度,其中
Figure FDA00031423237100000110
表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素,φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
Figure FDA00031423237100000111
Figure FDA00031423237100000112
其中,
Figure FDA00031423237100000113
表示风格相似度对应的误差,‖·‖F表示求F-范数;
S204结合特征误差和风格相似度对应的误差计算感知误差:采用
Figure FDA0003142323710000021
其中,
Figure FDA0003142323710000022
表示感知误差,Lf和Ls表示选用的用于衡量感知误差的激活层,w1∈(0,1),为权重,可调;
S205通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
Figure FDA0003142323710000023
训练全卷积神经网络ψ;
S30对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
2.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述S20之后还包括:采用
Figure FDA0003142323710000024
对训练后的全卷积神经网络ψ进行优化,其中损失网络φ的参数不更新,全卷积神经网络ψ参数更新。
3.如权利要求2所述的基于深度学习的本征图像分解方法,其特征在于,所述更新全卷积神经网络ψ参数时采用ADAM优化器。
4.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述S30包括:
S301令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:I=R⊙L(1),该函数为图像I等于R和L的逐点乘积;
S302利用全卷积神经网络ψ,达到:
Figure FDA0003142323710000025
的目的,其中
Figure FDA0003142323710000026
是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则
Figure FDA0003142323710000027
同理,对于L成分
Figure FDA0003142323710000028
5.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述在若干3D模型中选取3D模型的条件是:选取合理建模的,贴图中不带光照效果的3D模型。
6.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述S10中随机设置光照,任取视角渲染图片之后还包括:S01模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作。
7.一种基于深度学习的本征图像分解装置,其特征在于,包括:
数据集生成模块,用于在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分;及模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作,生成大批量的有标注本征图分解的数据集;
神经网络训练模块,用于利用所生成的数据集将全卷积神经网络训练成本征图分解网络;所述神经网络训练模块包括:
像素误差单元,用于计算像素误差:采用
Figure FDA0003142323710000031
Figure FDA0003142323710000032
以衡量预测值和真实值之间像素误差,其中
Figure FDA0003142323710000033
表示像素,
Figure FDA0003142323710000034
是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈(0,1),为权重,可调;
特征误差单元,用于采用
Figure FDA0003142323710000035
Figure FDA0003142323710000036
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中
Figure FDA0003142323710000037
表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度
风格相似度误差单元,用于计算风格相似度对应的误差:采用
Figure FDA0003142323710000041
以通过Gram矩阵来衡量风格相似度,其中
Figure FDA0003142323710000042
表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素,φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
Figure FDA0003142323710000043
其中,
Figure FDA0003142323710000044
表示风格相似度对应的误差,‖·‖F表示求F-范数;
感知误差单元,用于结合特征误差和风格相似度对应的误差计算感知误差:采用
Figure FDA0003142323710000045
其中,
Figure FDA0003142323710000046
表示感知误差,Lf和Ls表示选用的用于衡量感知误差的激活层,w1∈(0,1),为权重,可调;
神经训练单元,用于通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
Figure FDA0003142323710000047
训练全卷积神经网络ψ
应用模块,用于对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
8.如权利要求7所述的基于深度学习的本征图像分解装置,其特征在于,所述应用模块包括:
函数建立单元,用于令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:I=R⊙L (1),该函数为图像I等于R和L的逐点乘积;
应用单元,用于利用全卷积神经网络ψ,达到:
Figure FDA0003142323710000048
(2)的目的,其中
Figure FDA0003142323710000049
是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则
Figure FDA00031423237100000410
同理,对于L成分
Figure FDA00031423237100000411
CN201810201866.7A 2018-03-12 2018-03-12 一种基于深度学习的本征图像分解方法及装置 Active CN108416805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810201866.7A CN108416805B (zh) 2018-03-12 2018-03-12 一种基于深度学习的本征图像分解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810201866.7A CN108416805B (zh) 2018-03-12 2018-03-12 一种基于深度学习的本征图像分解方法及装置

Publications (2)

Publication Number Publication Date
CN108416805A CN108416805A (zh) 2018-08-17
CN108416805B true CN108416805B (zh) 2021-09-24

Family

ID=63131083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810201866.7A Active CN108416805B (zh) 2018-03-12 2018-03-12 一种基于深度学习的本征图像分解方法及装置

Country Status (1)

Country Link
CN (1) CN108416805B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509248B (zh) * 2018-09-28 2023-07-18 北京大学 一种基于神经网络的光子映射渲染方法和***
CN109523617B (zh) * 2018-10-15 2022-10-18 中山大学 一种基于单目摄像机的光照估计方法
CN109903320B (zh) * 2019-01-28 2021-06-08 浙江大学 一种基于肤色先验的人脸本征图像分解方法
CN109961488A (zh) * 2019-03-25 2019-07-02 ***股份有限公司 一种实物图像生成方法及装置
CN111833430B (zh) * 2019-04-10 2023-06-16 上海科技大学 基于神经网络的光照数据预测方法、***、终端及介质
CN110009676B (zh) * 2019-04-11 2019-12-17 电子科技大学 一种双目图像的本征性质分解方法
CN110728633B (zh) * 2019-09-06 2022-08-02 上海交通大学 多曝光度高动态范围反色调映射模型构建方法及装置
JP7388230B2 (ja) * 2020-02-17 2023-11-29 富士通株式会社 混合物性能最適化装置、混合物性能最適化プログラム、混合物性能最適化方法、及び混合冷媒
CN111476087A (zh) * 2020-03-02 2020-07-31 深圳市商汤科技有限公司 目标检测方法及其相关的模型训练方法、设备、装置
CN113034353B (zh) * 2021-04-09 2024-07-12 西安建筑科技大学 一种基于交叉卷积神经网络的本质图像分解方法及***
CN113077451B (zh) * 2021-04-13 2023-04-18 中山大学 基于无监督学习的单张图片本征图像分解方法、***及介质
CN113763524A (zh) * 2021-09-18 2021-12-07 华中科技大学 基于物理光学模型和神经网络的双流散景渲染方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281513A (zh) * 2013-05-14 2013-09-04 西安理工大学 一种无重叠域监控***中行人识别方法
CN105574832A (zh) * 2015-12-11 2016-05-11 上海交通大学 基于迭代方向滤波器组可逆深度卷积网络结构
CN107481211A (zh) * 2017-08-15 2017-12-15 北京工业大学 一种基于梯度域融合的夜间交通监控增强方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281513A (zh) * 2013-05-14 2013-09-04 西安理工大学 一种无重叠域监控***中行人识别方法
CN105574832A (zh) * 2015-12-11 2016-05-11 上海交通大学 基于迭代方向滤波器组可逆深度卷积网络结构
CN107481211A (zh) * 2017-08-15 2017-12-15 北京工业大学 一种基于梯度域融合的夜间交通监控增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Direct Intrinsics: Learning Albedo-Shading Decomposition by Convolutional Regression;Takuya Narihira et al;《2015 IEEE International Conference on Computer Vision》;20160218;第2992-3000页 *
Learning Data-Driven Reflectance Priors for Intrinsic Image Decomposition;Tinghui Zhou et al;《2015 IEEE International Conference on Computer Vision (ICCV)》;20160218;第3469-3477页 *
基于卷积神经网络的本征图像分解的实现;孙星 等;《北京电子科技学院学报》;20171215;第25卷(第4期);第74-80页 *

Also Published As

Publication number Publication date
CN108416805A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108416805B (zh) 一种基于深度学习的本征图像分解方法及装置
CN110084874B (zh) 对于三维模型的图像风格迁移
CN108921926B (zh) 一种基于单张图像的端到端三维人脸重建方法
CN111340944B (zh) 基于隐式函数和人体模板的单图像人体三维重建方法
US20230230275A1 (en) Inverting Neural Radiance Fields for Pose Estimation
US20180276884A1 (en) Fast T-spline Fitting System and Method
Qin et al. Aura 3D textures
JP7294788B2 (ja) 3d配置のタイプに応じた2d画像の分類
CN114757904A (zh) 一种基于ai深度学习算法的表面缺陷检测方法
CN114494611B (zh) 基于神经基函数的智能三维重建方法、装置、设备及介质
CN115359191A (zh) 一种基于深度学习的物体三维重建***
Kawahara et al. Dynamic 3D capture of swimming fish by underwater active stereo
CN110675311A (zh) 一种素描序约束下的素描生成的方法、装置及存储介质
JP2023079022A (ja) 情報処理装置及び情報生成方法
CN112489189B (zh) 一种神经网络的训练方法及***
CN112215766B (zh) 一种图像复原与图像增强相融合的图像去雾方法及其卷积网络
CN114485417B (zh) 一种结构振动位移识别方法及***
CN115760807A (zh) 一种视网膜眼底图像配准方法及***
CN115457206A (zh) 三维模型生成方法、装置、设备及存储介质
CN117252914A (zh) 深度估计网络的训练方法、装置、电子设备及存储介质
Gallardo et al. Using Shading and a 3D Template to Reconstruct Complex Surface Deformations.
CN112487893B (zh) 一种三维目标识别方法及***
CN115409949A (zh) 模型训练方法、视角图像生成方法、装置、设备及介质
CN115735120A (zh) 温度分布学习装置
KR102551467B1 (ko) 깊이 맵 이미지 생성 방법 및 그를 위한 컴퓨팅 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant