CN113810597B - 一种基于半预测滤波的快速图像散景渲染方法 - Google Patents

一种基于半预测滤波的快速图像散景渲染方法 Download PDF

Info

Publication number
CN113810597B
CN113810597B CN202110914290.0A CN202110914290A CN113810597B CN 113810597 B CN113810597 B CN 113810597B CN 202110914290 A CN202110914290 A CN 202110914290A CN 113810597 B CN113810597 B CN 113810597B
Authority
CN
China
Prior art keywords
picture
filtering
module
kernel
shot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110914290.0A
Other languages
English (en)
Other versions
CN113810597A (zh
Inventor
颜成钢
陈泉
马立栋
郑博仑
孙垚棋
张继勇
李宗鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110914290.0A priority Critical patent/CN113810597B/zh
Publication of CN113810597A publication Critical patent/CN113810597A/zh
Application granted granted Critical
Publication of CN113810597B publication Critical patent/CN113810597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

一种基于半预测滤波的快速图像散景渲染方法步骤。首先通过单反相机拍摄获取不同场景下拍摄的数据,对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸,对处理后的全聚焦图片进行坐标赋值,制作坐标图,然后构建并训练基于半预测滤波的快速图像散景渲染网络模型,网络模型包括注意力模块,残差模块,半滤波核模块和图像生成模块;最后经过训练的神经网络模型接收需要进行散景渲染处理的图片,完成散景渲染处理后将图片输出。本发明方法在确保散景渲染质量的前提下实现了图像的快速散景渲染,创新的提出了一种坐标图,用于辅助网络模型的训练,提高网络模型辨别输入图像中重要内容的能力。

Description

一种基于半预测滤波的快速图像散景渲染方法
技术领域
本发明涉及一种基于半预测滤波的快速图像散景渲染方法,尤其涉及基于深度学习技术的散景效果处理领域。
背景技术
散景渲染效果在摄影领域通常被认为美学的标准之一,在现有的技术支持下,摄影者利用单反相机很容易实现这一效果,拍摄者将相机设置为大光圈拍摄模式进行图像拍摄从而将图像中的不感兴趣的部分模糊处理。考虑到智能手机的普及,制造商尝试在手机端增加复杂的硬件和摄像头来从硬件层面实现智能手机的散景渲染效果,但是高昂的制造成本对商家和消费者都不友好。因此,基于软件层面开发针对图像的散景渲染算法成为了研究的热点,这类散景渲染实现方法依赖于手机的运算性能,所需要的硬件成本相对低廉,适用于市面上绝大多数的智能手机。目前多数算法都是基于深度学习实现的,搭建端到端的网络实现图像的散景效果渲染。但是,将深度学习算法集成到手机端时,缩短运算时间成为了一大难题,运算速度与渲染效果相互制约,如何统一运算速度和渲染效果是必须考虑的问题。
发明内容
解决的技术问题:针对上述的基于硬件实现方法成本高,基于软件实现方法运算速度和渲染质量的问题,本发明提出了一种基于半预测滤波的快速图像散景渲染方法。
实现步骤:本发明提出了一种基于半预测滤波的快速图像散景渲染方法,其基本步骤为:
步骤1:数据集制作;
步骤1.1:通过单反相机拍摄获取不同场景下拍摄的数据,所述的不同场景下拍摄的数据均为一对图片,即分别为单反相机拍摄的全聚焦图片Iorg和单反相机利用大光圈真实拍摄的具有散景渲染效果的图片Igt。其中全聚焦图片Iorg作为模型训练过程中的输入图像数据,而具有真实散景渲染效果的图片Igt作为模型训练过程中的用于与模型输出图像进行对比的对比数据。
步骤1.2:对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸。
步骤1.3:坐标图制作。对步骤1.2处理后的全聚焦图片Iorg进行坐标赋值,具体计算方法如下:
Figure BDA0003205091940000021
Figure BDA0003205091940000022
其中,X代表图片高维度对应的像素点坐标,Y代表图片宽维度对应的像素点坐标。将X和Y的信息与全聚焦图片Iorg进行结合,重新构建一张5通道的全聚焦图片Iorg+c作为网络模型的最终输入图片。
步骤2:构建基于半预测滤波的快速图像散景渲染网络模型;
步骤2.1:基于半预测滤波的快速图像散景渲染任务理论推导。假设输入是一张全聚焦图片Iorg+c,利用显著性检测算法将全聚焦图片Iorg+c分成两部分,包含图片中显著性特征部分Ifocus以及图片的背景特征Idefocus。利用半滤波模糊算法将背景区域图片Idefocus模糊处理,得到具有模糊背景的图片Iblur,半滤波模糊算法将显著性特征部分Ifocus进行保留,最后将具有模糊背景的图片Iblur与显著性特征部分Ifocus融合,得到所需要的具有散景渲染的图片Ibokeh。图像散景渲染任务的理论模型用公式表示如下:
Figure BDA0003205091940000023
其中
Figure BDA0003205091940000024
表示显著性检测算法;
Figure BDA0003205091940000025
表示半滤波模糊算法。
步骤2.2:构建基于半预测滤波的快速图像散景渲染网络;
基于半预测滤波的快速图像散景渲染网络包括注意力模块,残差模块,半滤波核模块和图像生成模块。其中注意力模块用于检测输入全聚焦图片Iorg+c中的显著性特征,用于辅助后续限制性预测滤波模块的工作;残差模块用于对输入数据进行深层的特征增强;半滤波核模块用于生成需要的滤波核,用于对输入图像进行滤波操作,模糊图片部分内容从而产生散景渲染效果,其中滤波核由网络生成的自适应滤波核以及少量的人工定义参数的Gabor滤波核组成,网络生成的自适应滤波核用来自适应的模糊输入图像,人工定义参数的Gabor滤波核用来保留并增强图像的显著性区域细节以及边缘细节;图像生成模块用于生成需要使用半滤波核模块生成的滤波核进行滤波的图片。
残差模块具体结构:残差模块的输入特征图Xres依次经过3个卷积核数量为64,卷积核大小为3*3的卷积层后得到输出特征图X'res。最后将输出X'res和输入Xres逐元素相加,得到残差模块的最终输出特征图Xres-out。其中所有的卷积层后都连接一个ReLU非线性激活函数。
注意力模块具体结构:注意力模块的输入特征图Xatt的尺寸为高H*宽W*通道C。注意力模块分成上up,中mid,下down三个分支,输入特征图Xatt经过up分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为HW*64的特征图Xup;输入特征图Xatt经过mid分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为64*HW的特征图Xmid;将特征图Xup与特征图Xmid进行矩阵乘法运算后,采用Softmax函数进行激活,得到形状为HW*HW的特征图Xact;输入特征图Xatt经过down分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为HW*64的特征图Xdown;将特征图Xact与特征图Xdown进行矩阵乘法运算后,再次进行Reshape操作,得到形状为H*W*64的特征图Xfinal;特征图Xfinal经过3个卷积核数量为64,卷积核大小为3*3的卷积层后,与输入特征图Xatt逐元素相加,得到注意力模块最终的输出特征图Xatt-out。其中所有的卷积层后都连接一个ReLU非线性激活函数。
半滤波核模块具体结构:半滤波核模块的输入特征图Xfilter的尺寸为高H*宽W*通道C。输入特征图Xfilter经过一个滤波核数量均为64的残差模块,得到深层特征信息Xdeep;在依次经过卷积核数量为64,卷积核大小为3*3的卷积层和倍数为2的上采样层,得到需要的生成滤波的特征图X'deep,其尺寸为2H*2W*64;
将特征图X'deep按照通道维度进行划分,分成尺寸为2H*2W*48的特征图XA和尺寸为2H*2W*16的特征图XB;特征图XA用于生成自适应滤波核,即特征图XA依次经过卷积核数量为k2,卷积核大小为3*3的卷积层和Softmax激活函数,得到尺寸为2H*2W*k2自适应滤波核Xadp-f,其中k为预定义的滤波核尺寸;特征图XB用于组合生成固定滤波核参数的边缘滤波核Gabor滤波核,即特征图XB与给定参数的16个Gabor滤波核进行自定义滤波操作,对16个Gabor滤波核进行线性组合,得到所需要的尺寸为2H*2W*k2边缘滤波核Xgabor-f,用于快速增强图片的边缘信息以变保留,其中16个Gabor滤波核包含8个方向,同方向的Gabor滤波核又包含2个Sigma参数,所以16个Gabor滤波核参数各不相同;最后将自适应滤波核Xadp-f和边缘滤波核Xgabor-f进行逐元素相加,得到最终需要的半滤波核Xfilter-out
图像生成模块具体结构:图像生成模块包含三个输入,同尺度的输入特征图X1,低尺度的经过上采样操作的输入特征图X2,输入的半滤波核模块生成的半滤波核Xfilter-out。输入特征图X1依次经过卷积核数量为3,卷积核大小为3*3的卷积层和倍数为2的上采样层,将输出结果与输入特征图X2进行逐元素相加,得到最终需要进行滤波操作的尺寸为H*W*3的特征图Xgen;将半滤波核Xfilter-out和特征图Xgen进行自定义滤波核的卷积操作,得到最终的尺寸为H*W*3的特征图Xout,特征图Xout即为所需要的经过散景渲染处理的图片。
完整网络的具体结构:完整网络分为2个分支,每个分支处理不同尺度的信息;网络的初始输入为步骤1.3生成的全聚焦图片Iorg+c;分支1包含残差模块,半滤波核模块和图像生成模块,而分支2包含注意力模块,半滤波核模块和图像生成模块;为了增强不同分支之间的信息关联度,分支2的输入由均经过下采样的分支1的中间信息和全聚焦图片信息组成,而分支2的输出结果会反馈到分支1的图像生成模块,用于指导图像生成模块的运算。
步骤3:训练基于半预测滤波的快速图像散景渲染网络模型。
网络模型的训练方式如下:
首先输入步骤1.3中制作的5通道全聚焦图片Iorg+c;然后,通过显著性检测模块和限制性预测滤波模块进行图像的显著性特征保留和背景模糊处理;最后,利用损失函数不断优化模型输出的具有散景渲染的图片Ibokeh,使其逐渐相似于步骤1构建的数据集中的具有真实散景渲染效果的图片Igt
训练过程中,损失函数L采用L1函数和LS函数的结合,提高模型输出图片Ibokeh与对比图片Igt之间的结构相似性,并利用深度学习的反向传播,不断减小模型输出图片Ibokeh和对比图片Igt之间的差异,从而实现模型输出的具有散景渲染的图片Ibokeh的优化,其具体表示为:
L=L1(Ibokeh,Igt)+LS(Ibokeh,Igt)
其中L1(Ibokeh,Igt)表示模型输出的具有散景渲染的图片Ibokeh与对比图片Igt的重构函数,而LS(Ibokeh,Igt)表示模型输出的具有散景渲染的图片Ibokeh与对比图片Igt的轮廓相似函数,损失函数表达式如下:
Figure BDA0003205091940000051
其中Sobel代表对图片进行水平和竖直方向的梯度计算,用于计算图片内容的轮廓结构,N代表图片的像素点个数总和,即图片的宽W×高H。
步骤4:经过训练的神经网络模型接收需要进行散景渲染处理的图片,完成散景渲染处理后将图片输出;
加载由步骤2训练完成的散景渲染网络模型权重,更新模型中的参数。其次,将步骤1.2中修改过尺寸的全聚焦图片Iorg+c作为输入数据传入到散景渲染的网络模型中,输入数据依次经过显著性检测模块和限制性预测滤波模块,得到具有散景渲染效果的模型输出图片Ibokeh
本发明有益效果如下:
1.创新的提出了一种基于半预测滤波的快速图像散景渲染方法,在确保散景渲染质量的前提下实现了图像的快速散景渲染。
2.创新的提出了一种坐标图,用于辅助网络模型的训练,提高网络模型辨别输入图像中重要内容的能力。
附图说明
图1为本发明的方法流程示意图;
图2为单张图像的散景渲染流程图;
图3为基于半预测滤波的快速图像散景渲染网络结构图;
图4为汽车产生散景渲染的效果图;
图5为路灯产生散景渲染的效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明首先进行以下定义及说明:
Iorg:全聚焦图片
Iorg+c:包含坐标图信息的5通道的全聚焦图片,为网络模型的真实输入信息
Igt:具有真实散景渲染效果的图片
Ibokeh:具有散景渲染效果的模型输出图片
图2为单张图像的散景渲染流程图;
如图1所示,本发明提出了一种基于半预测滤波的快速图像散景渲染方法,其基本步骤为:
步骤1:数据集制作
步骤1.1:通过单反相机拍摄获取不同场景下拍摄的数据,所述的不同场景下拍摄的数据均为一对图片,即分别为单反相机拍摄的全聚焦图片Iorg和单反相机利用大光圈真实拍摄的具有散景渲染效果的图片Igt。其中全聚焦图片Iorg作为模型训练过程中的输入图像数据,而具有真实散景渲染效果的图片Igt作为模型训练过程中的用于与模型输出图像进行对比的对比数据。
步骤1.2:对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸,统一数据集的尺寸有利于减少训练网络所需要的运算时间。
步骤1.3:坐标图制作。对步骤1.2处理后的全聚焦图片Iorg进行坐标赋值,具体计算方法如下:
Figure BDA0003205091940000071
Figure BDA0003205091940000072
其中,X代表图片高维度对应的像素点坐标,Y代表图片宽维度对应的像素点坐标。将X和Y的信息与全聚焦图片Iorg进行结合,重新构建一张5通道的全聚焦图片Iorg+c作为网络模型的最终输入图片。
步骤2:构建基于半预测滤波的快速图像散景渲染网络模型;
步骤2.1:基于半预测滤波的快速图像散景渲染任务理论推导。假设输入是一张全聚焦图片Iorg+c,利用显著性检测算法将全聚焦图片Iorg+c分成两部分,包含图片中显著性特征部分Ifocus以及图片的背景特征Idefocus。利用半滤波模糊算法将背景区域图片Idefocus模糊处理,得到具有模糊背景的图片Iblur,半滤波模糊算法将显著性特征部分Ifocus进行保留,最后将具有模糊背景的图片Iblur与显著性特征部分Ifocus融合,得到所需要的具有散景渲染的图片Ibokeh。图像散景渲染任务的理论模型用公式表示如下:
Figure BDA0003205091940000073
其中
Figure BDA0003205091940000074
表示显著性检测算法;
Figure BDA0003205091940000075
表示半滤波模糊算法。
步骤2.2:构建基于半预测滤波的快速图像散景渲染网络:
所述的基于半预测滤波的快速图像散景渲染网络包括注意力模块,残差模块,半滤波核模块和图像生成模块。其中注意力模块用于检测输入全聚焦图片Iorg+c中的显著性特征,用于辅助后续限制性预测滤波模块的工作;残差模块用于对输入数据进行深层的特征增强;半滤波核模块用于生成需要的滤波核,用于对输入图像进行滤波操作,模糊图片部分内容从而产生散景渲染效果,其中滤波核由网络生成的自适应滤波核以及少量的人工定义参数的Gabor滤波核组成,网络生成的自适应滤波核用来自适应的模糊输入图像,人工定义参数的Gabor滤波核用来保留并增强图像的显著性区域细节以及边缘细节;图像生成模块用于生成需要使用半滤波核模块生成的滤波核进行滤波的图片。
残差模块具体结构:残差模块的输入特征图Xres依次经过3个卷积核数量为64,卷积核大小为3*3的卷积层后得到输出特征图X'res。最后将输出X'res和输入Xres逐元素相加,得到残差模块的最终输出特征图Xres-out。其中所有的卷积层后都连接一个ReLU非线性激活函数。
注意力模块具体结构:注意力模块的输入特征图Xatt的尺寸为高H*宽W*通道C。注意力模块分成上up,中mid,下down三个分支,输入特征图Xatt经过up分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为HW*64的特征图Xup;输入特征图Xatt经过mid分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为64*HW的特征图Xmid;将特征图Xup与特征图Xmid进行矩阵乘法运算后,采用Softmax函数进行激活,得到形状为HW*HW的特征图Xact;输入特征图Xatt经过down分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为HW*64的特征图Xdown;将特征图Xact与特征图Xdown进行矩阵乘法运算后,再次进行Reshape操作,得到形状为H*W*64的特征图Xfinal;特征图Xfinal经过3个卷积核数量为64,卷积核大小为3*3的卷积层后,与输入特征图Xatt逐元素相加,得到注意力模块最终的输出特征图Xatt-out。其中所有的卷积层后都连接一个ReLU非线性激活函数。
半滤波核模块具体结构:半滤波核模块的输入特征图Xfilter的尺寸为高H*宽W*通道C。输入特征图Xfilter经过一个滤波核数量均为64的残差模块,得到深层特征信息Xdeep;在依次经过卷积核数量为64,卷积核大小为3*3的卷积层和倍数为2的上采样层,得到需要的生成滤波的特征图X'deep,其尺寸为2H*2W*64;
将特征图X'deep按照通道维度进行划分,分成尺寸为2H*2W*48的特征图XA和尺寸为2H*2W*16的特征图XB;特征图XA用于生成自适应滤波核,即特征图XA依次经过卷积核数量为k2,卷积核大小为3*3的卷积层和Softmax激活函数,得到尺寸为2H*2W*k2自适应滤波核Xadp-f,其中k为预定义的滤波核尺寸;特征图XB用于组合生成固定滤波核参数的边缘滤波核Gabor滤波核,即特征图XB与给定参数的16个Gabor滤波核进行自定义滤波操作,对16个Gabor滤波核进行线性组合,得到所需要的尺寸为2H*2W*k2边缘滤波核Xgabor-f,用于快速增强图片的边缘信息以变保留,其中16个Gabor滤波核包含8个方向,同方向的Gabor滤波核又包含2个Sigma参数,所以16个Gabor滤波核参数各不相同;最后将自适应滤波核Xadp-f和边缘滤波核Xgabot-f进行逐元素相加,得到最终需要的半滤波核Xfilter-out
图像生成模块具体结构:图像生成模块包含三个输入,同尺度的输入特征图X1,低尺度的经过上采样操作的输入特征图X2,输入的半滤波核模块生成的半滤波核Xfilter-out。输入特征图X1依次经过卷积核数量为3,卷积核大小为3*3的卷积层和倍数为2的上采样层,将输出结果与输入特征图X2进行逐元素相加,得到最终需要进行滤波操作的尺寸为H*W*3的特征图Xgen;将半滤波核Xfilter-out和特征图Xgen进行自定义滤波核的卷积操作,得到最终的尺寸为H*W*3的特征图Xout,特征图Xout即为所需要的经过散景渲染处理的图片。
完整网络的具体结构:完整网络分为2个分支,每个分支处理不同尺度的信息;网络的初始输入为步骤1.3生成的全聚焦图片Iorg+c;分支1包含残差模块,半滤波核模块和图像生成模块,而分支2包含注意力模块,半滤波核模块和图像生成模块;为了增强不同分支之间的信息关联度,分支2的输入由均经过下采样的分支1的中间信息和全聚焦图片信息组成,而分支2的输出结果会反馈到分支1的图像生成模块,用于指导图像生成模块的运算。
图3为基于半预测滤波的快速图像散景渲染网络结构图;
步骤3:训练基于半预测滤波的快速图像散景渲染网络模型。
网络模型的训练方式如下:
首先输入步骤1.3中制作的5通道全聚焦图片Iorg+c;然后,通过显著性检测模块和限制性预测滤波模块进行图像的显著性特征保留和背景模糊处理;最后,利用损失函数不断优化模型输出的具有散景渲染的图片Ibokeh,使其逐渐相似于步骤1构建的数据集中的具有真实散景渲染效果的图片Igt
训练过程中,损失函数L采用L1函数和LS函数的结合,提高模型输出图片Ibokeh与对比图片Igt之间的结构相似性,并利用深度学习的反向传播,不断减小模型输出图片Ibokeh和对比图片Igt之间的差异,从而实现模型输出的具有散景渲染的图片Ibokeh的优化,其具体表示为:
L=L1(Ibokeh,Igt)+LS(Ibokeh,Igt)
其中L1(Ibokeh,Igt)表示模型输出的具有散景渲染的图片Ibokeh与对比图片Igt的重构函数,而LS(Ibokeh,Igt)表示模型输出的具有散景渲染的图片Ibokeh与对比图片Igt的轮廓相似函数,损失函数表达式如下:
Figure BDA0003205091940000101
其中Sobel代表对图片进行水平和竖直方向的梯度计算,用于计算图片内容的轮廓结构,N代表图片的像素点个数总和,即图片的宽W×高H。
步骤4:经过训练的神经网络模型接收需要进行散景渲染处理的图片,完成散景渲染处理后将图片输出
首先,加载由步骤2训练完成的散景渲染网络模型权重,更新模型中的参数。其次,将步骤1.2中修改过尺寸的全聚焦图片Iorg+c作为输入数据传入到散景渲染的网络模型中,输入数据依次经过显著性检测模块和限制性预测滤波模块,得到具有散景渲染效果的模型输出图片Ibokeh
图4为汽车产生散景渲染的效果图;
图5为路灯产生散景渲染的效果图。

Claims (1)

1.一种基于半预测滤波的快速图像散景渲染方法,其特征在于,步骤如下:
步骤1:数据集制作;
步骤2:构建基于半预测滤波的快速图像散景渲染网络模型;
步骤3:训练基于半预测滤波的快速图像散景渲染网络模型;
步骤4:经过训练的神经网络模型接收需要进行散景渲染处理的图片,完成散景渲染处理后将图片输出;
步骤1具体方法如下:
步骤1.1:通过单反相机拍摄获取不同场景下拍摄的数据,所述的不同场景下拍摄的数据均为一对图片,即分别为单反相机拍摄的全聚焦图片Iorg和单反相机利用大光圈真实拍摄的具有散景渲染效果的图片Igt;其中全聚焦图片Iorg作为模型训练过程中的输入图像数据,而具有真实散景渲染效果的图片Igt作为模型训练过程中的用于与模型输出图像进行对比的对比数据;
步骤1.2:对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸;
步骤1.3:坐标图制作;对步骤1.2处理后的全聚焦图片Iorg进行坐标赋值,具体计算方法如下:
Figure FDA0003848393790000011
Figure FDA0003848393790000012
其中,X代表图片高维度对应的像素点坐标,Y代表图片宽维度对应的像素点坐标;将X和Y的信息与全聚焦图片Iorg进行结合,重新构建一张5通道的全聚焦图片Iorg+c作为网络模型的最终输入图片;
步骤2具体方法如下:
步骤2.1:基于半预测滤波的快速图像散景渲染任务理论推导;假设输入是一张全聚焦图片Iorg+c,利用显著性检测算法将全聚焦图片Iorg+c分成两部分,包含图片中显著性特征部分Ifocus以及图片的背景特征Idefocus;利用半滤波模糊算法将背景区域图片Idefocus模糊处理,得到具有模糊背景的图片Iblur,半滤波模糊算法将显著性特征部分Ifocus进行保留,最后将具有模糊背景的图片Iblur与显著性特征部分Ifocus融合,得到所需要的具有散景渲染的图片Ibokeh;图像散景渲染任务的理论模型用公式表示如下:
Figure FDA0003848393790000021
其中
Figure FDA0003848393790000022
表示显著性检测算法;
Figure FDA0003848393790000023
表示半滤波模糊算法;
步骤2.2:构建基于半预测滤波的快速图像散景渲染网络;
基于半预测滤波的快速图像散景渲染网络包括注意力模块,残差模块,半滤波核模块和图像生成模块;其中注意力模块用于检测输入全聚焦图片Iorg+c中的显著性特征,用于辅助后续限制性预测滤波模块的工作;残差模块用于对输入数据进行深层的特征增强;半滤波核模块用于生成需要的滤波核,用于对输入图像进行滤波操作,模糊图片部分内容从而产生散景渲染效果,其中滤波核由网络生成的自适应滤波核以及少量的人工定义参数的Gabor滤波核组成,网络生成的自适应滤波核用来自适应的模糊输入图像,人工定义参数的Gabor滤波核用来保留并增强图像的显著性区域细节以及边缘细节;图像生成模块用于生成需要使用半滤波核模块生成的滤波核进行滤波的图片;
完整网络分为2个分支,每个分支处理不同尺度的信息;网络的初始输入为步骤1.3生成的全聚焦图片Iorg+c;分支1包含残差模块,半滤波核模块和图像生成模块,而分支2包含注意力模块,半滤波核模块和图像生成模块;为了增强不同分支之间的信息关联度,分支2的输入由均经过下采样的分支1的中间信息和全聚焦图片信息组成,而分支2的输出结果会反馈到分支1的图像生成模块,用于指导图像生成模块的运算;
残差模块具体结构:残差模块的输入特征图Xres依次经过3个卷积核数量为64,卷积核大小为3*3的卷积层后得到输出特征图X'res;最后将输出X'res和输入Xres逐元素相加,得到残差模块的最终输出特征图Xres-out;其中所有的卷积层后都连接一个ReLU非线性激活函数;
注意力模块具体结构:注意力模块的输入特征图Xatt的尺寸为高H*宽W*通道C;注意力模块分成上up,中mid,下down三个分支,输入特征图Xatt经过up分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为HW*64的特征图Xup;输入特征图Xatt经过mid分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为64*HW的特征图Xmid;将特征图Xup与特征图Xmid进行矩阵乘法运算后,采用Softmax函数进行激活,得到形状为HW*HW的特征图Xact;输入特征图Xatt经过down分支的卷积核数量为64,卷积核大小为3*3的卷积层后进行Reshape操作,得到形状为HW*64的特征图Xdown;将特征图Xact与特征图Xdown进行矩阵乘法运算后,再次进行Reshape操作,得到形状为H*W*64的特征图Xfinal;特征图Xfinal经过3个卷积核数量为64,卷积核大小为3*3的卷积层后,与输入特征图Xatt逐元素相加,得到注意力模块最终的输出特征图Xatt-out;其中所有的卷积层后都连接一个ReLU非线性激活函数;
半滤波核模块具体结构:半滤波核模块的输入特征图Xfilter的尺寸为高H*宽W*通道C;输入特征图Xfilter经过一个滤波核数量均为64的残差模块,得到深层特征信息Xdeep;在依次经过卷积核数量为64,卷积核大小为3*3的卷积层和倍数为2的上采样层,得到需要的生成滤波的特征图X'deep,其尺寸为2H*2W*64;
将特征图X'deep按照通道维度进行划分,分成尺寸为2H*2W*48的特征图XA和尺寸为2H*2W*16的特征图XB;特征图XA用于生成自适应滤波核,即特征图XA依次经过卷积核数量为k2,卷积核大小为3*3的卷积层和Softmax激活函数,得到尺寸为2H*2W*k2自适应滤波核Xadp-f,其中k为预定义的滤波核尺寸;特征图XB用于组合生成固定滤波核参数的边缘滤波核Gabor滤波核,即特征图XB与给定参数的16个Gabor滤波核进行自定义滤波操作,对16个Gabor滤波核进行线性组合,得到所需要的尺寸为2H*2W*k2边缘滤波核Xgabor-f,用于快速增强图片的边缘信息以变保留,其中16个Gabor滤波核包含8个方向,同方向的Gabor滤波核又包含2个Sigma参数,所以16个Gabor滤波核参数各不相同;最后将自适应滤波核Xadp-f和边缘滤波核Xgabor-f进行逐元素相加,得到最终需要的半滤波核Xfilter-out
图像生成模块具体结构:图像生成模块包含三个输入,同尺度的输入特征图X1,低尺度的经过上采样操作的输入特征图X2,输入的半滤波核模块生成的半滤波核Xfilter-out;输入特征图X1依次经过卷积核数量为3,卷积核大小为3*3的卷积层和倍数为2的上采样层,将输出结果与输入特征图X2进行逐元素相加,得到最终需要进行滤波操作的尺寸为H*W*3的特征图Xgen;将半滤波核Xfilter-out和特征图Xgen进行自定义滤波核的卷积操作,得到最终的尺寸为H*W*3的特征图Xout,特征图Xout即为所需要的经过散景渲染处理的图片;
步骤3具体方法如下:
网络模型的训练方式如下:
首先输入步骤1.3中制作的5通道全聚焦图片Iorg+c;然后,通过显著性检测模块和限制性预测滤波模块进行图像的显著性特征保留和背景模糊处理;最后,利用损失函数不断优化模型输出的具有散景渲染的图片Ibokeh,使其逐渐相似于步骤1构建的数据集中的具有真实散景渲染效果的图片Igt
训练过程中,损失函数L采用L1函数和LS函数的结合,提高模型输出图片Ibokeh与对比图片Igt之间的结构相似性,并利用深度学习的反向传播,不断减小模型输出图片Ibokeh和对比图片Igt之间的差异,从而实现模型输出的具有散景渲染的图片Ibokeh的优化,其具体表示为:
L=L1(Ibokeh,Igt)+LS(Ibokeh,Igt)
其中L1(Ibokeh,Igt)表示模型输出的具有散景渲染的图片Ibokeh与对比图片Igt的重构函数,而LS(Ibokeh,Igt)表示模型输出的具有散景渲染的图片Ibokeh与对比图片Igt的轮廓相似函数,损失函数表达式如下:
Figure FDA0003848393790000041
其中Sobel代表对图片进行水平和竖直方向的梯度计算,用于计算图片内容的轮廓结构,N代表图片的像素点个数总和,即图片的宽W×高H;
步骤4具体方法如下:
加载由步骤2训练完成的散景渲染网络模型权重,更新模型中的参数;其次,将步骤1.2中修改过尺寸的全聚焦图片Iorg+c作为输入数据传入到散景渲染的网络模型中,输入数据依次经过显著性检测模块和限制性预测滤波模块,得到具有散景渲染效果的模型输出图片Ibokeh
CN202110914290.0A 2021-08-10 2021-08-10 一种基于半预测滤波的快速图像散景渲染方法 Active CN113810597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110914290.0A CN113810597B (zh) 2021-08-10 2021-08-10 一种基于半预测滤波的快速图像散景渲染方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110914290.0A CN113810597B (zh) 2021-08-10 2021-08-10 一种基于半预测滤波的快速图像散景渲染方法

Publications (2)

Publication Number Publication Date
CN113810597A CN113810597A (zh) 2021-12-17
CN113810597B true CN113810597B (zh) 2022-12-13

Family

ID=78893425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110914290.0A Active CN113810597B (zh) 2021-08-10 2021-08-10 一种基于半预测滤波的快速图像散景渲染方法

Country Status (1)

Country Link
CN (1) CN113810597B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049780A (zh) * 2022-05-26 2022-09-13 北京京东尚科信息技术有限公司 深度渲染模型训练方法和装置、目标渲染方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665494A (zh) * 2017-03-27 2018-10-16 北京中科视维文化科技有限公司 基于快速引导滤波的景深实时渲染方法
CN112073632A (zh) * 2020-08-11 2020-12-11 联想(北京)有限公司 图像处理方法、设备及存储介质
CN112184586A (zh) * 2020-09-29 2021-01-05 中科方寸知微(南京)科技有限公司 基于深度感知的单目视觉图像背景快速虚化的方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055452B (zh) * 2017-11-01 2020-09-18 Oppo广东移动通信有限公司 图像处理方法、装置及设备
CN109345449B (zh) * 2018-07-17 2020-11-10 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665494A (zh) * 2017-03-27 2018-10-16 北京中科视维文化科技有限公司 基于快速引导滤波的景深实时渲染方法
CN112073632A (zh) * 2020-08-11 2020-12-11 联想(北京)有限公司 图像处理方法、设备及存储介质
CN112184586A (zh) * 2020-09-29 2021-01-05 中科方寸知微(南京)科技有限公司 基于深度感知的单目视觉图像背景快速虚化的方法及***

Also Published As

Publication number Publication date
CN113810597A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN109493350B (zh) 人像分割方法及装置
TWI728465B (zh) 圖像處理方法和裝置、電子設備及儲存介質
Lan et al. MADNet: A fast and lightweight network for single-image super resolution
Wang et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
Hui et al. Fast and accurate single image super-resolution via information distillation network
US20230080693A1 (en) Image processing method, electronic device and readable storage medium
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN111372006B (zh) 一种面向移动端的高动态范围成像方法及***
CN112164011A (zh) 基于自适应残差与递归交叉注意力的运动图像去模糊方法
CN112419191B (zh) 基于卷积神经网络的图像运动模糊去除方法
CN113344773B (zh) 基于多级对偶反馈的单张图片重构hdr方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
US20230146181A1 (en) Integrated machine learning algorithms for image filters
CN113810597B (zh) 一种基于半预测滤波的快速图像散景渲染方法
CN112819705A (zh) 一种基于网状结构与长距离相关性的真实图像去噪方法
CN112184550B (zh) 神经网络训练方法、图像融合方法、装置、设备和介质
Raimundo et al. LAN: Lightweight attention-based network for RAW-to-RGB smartphone image processing
CN115004220A (zh) 用于原始低光图像增强的神经网络
CN111953888B (zh) 暗光成像方法、装置、计算机可读存储介质及终端设备
CN116152128A (zh) 基于注意力机制的高动态范围多曝光图像融合模型及方法
CN116485654A (zh) 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法
CN116895037A (zh) 基于边缘信息和多尺度交叉融合网络的帧***方法及***
Wang et al. Self-supervised multi-scale pyramid fusion networks for realistic bokeh effect rendering
Huang et al. Natural & Adversarial Bokeh Rendering via Circle-of-Confusion Predictive Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant