CN113810597B

CN113810597B - 一种基于半预测滤波的快速图像散景渲染方法

Info

Publication number: CN113810597B
Application number: CN202110914290.0A
Authority: CN
Inventors: 颜成钢; 陈泉; 马立栋; 郑博仑; 孙垚棋; 张继勇; 李宗鹏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2022-12-13
Anticipated expiration: 2041-08-10
Also published as: CN113810597A

Abstract

一种基于半预测滤波的快速图像散景渲染方法步骤。首先通过单反相机拍摄获取不同场景下拍摄的数据，对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸，对处理后的全聚焦图片进行坐标赋值，制作坐标图，然后构建并训练基于半预测滤波的快速图像散景渲染网络模型，网络模型包括注意力模块，残差模块，半滤波核模块和图像生成模块；最后经过训练的神经网络模型接收需要进行散景渲染处理的图片，完成散景渲染处理后将图片输出。本发明方法在确保散景渲染质量的前提下实现了图像的快速散景渲染，创新的提出了一种坐标图，用于辅助网络模型的训练，提高网络模型辨别输入图像中重要内容的能力。

Description

一种基于半预测滤波的快速图像散景渲染方法

技术领域

本发明涉及一种基于半预测滤波的快速图像散景渲染方法，尤其涉及基于深度学习技术的散景效果处理领域。

背景技术

散景渲染效果在摄影领域通常被认为美学的标准之一，在现有的技术支持下，摄影者利用单反相机很容易实现这一效果，拍摄者将相机设置为大光圈拍摄模式进行图像拍摄从而将图像中的不感兴趣的部分模糊处理。考虑到智能手机的普及，制造商尝试在手机端增加复杂的硬件和摄像头来从硬件层面实现智能手机的散景渲染效果，但是高昂的制造成本对商家和消费者都不友好。因此，基于软件层面开发针对图像的散景渲染算法成为了研究的热点，这类散景渲染实现方法依赖于手机的运算性能，所需要的硬件成本相对低廉，适用于市面上绝大多数的智能手机。目前多数算法都是基于深度学习实现的，搭建端到端的网络实现图像的散景效果渲染。但是，将深度学习算法集成到手机端时，缩短运算时间成为了一大难题，运算速度与渲染效果相互制约，如何统一运算速度和渲染效果是必须考虑的问题。

发明内容

解决的技术问题：针对上述的基于硬件实现方法成本高，基于软件实现方法运算速度和渲染质量的问题，本发明提出了一种基于半预测滤波的快速图像散景渲染方法。

实现步骤：本发明提出了一种基于半预测滤波的快速图像散景渲染方法，其基本步骤为:

步骤1：数据集制作；

步骤1.1：通过单反相机拍摄获取不同场景下拍摄的数据，所述的不同场景下拍摄的数据均为一对图片，即分别为单反相机拍摄的全聚焦图片I_org和单反相机利用大光圈真实拍摄的具有散景渲染效果的图片I_gt。其中全聚焦图片I_org作为模型训练过程中的输入图像数据，而具有真实散景渲染效果的图片I_gt作为模型训练过程中的用于与模型输出图像进行对比的对比数据。

步骤1.2：对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸。

步骤1.3：坐标图制作。对步骤1.2处理后的全聚焦图片I_org进行坐标赋值，具体计算方法如下：

其中，X代表图片高维度对应的像素点坐标，Y代表图片宽维度对应的像素点坐标。将X和Y的信息与全聚焦图片I_org进行结合，重新构建一张5通道的全聚焦图片I_org+c作为网络模型的最终输入图片。

步骤2：构建基于半预测滤波的快速图像散景渲染网络模型；

步骤2.1：基于半预测滤波的快速图像散景渲染任务理论推导。假设输入是一张全聚焦图片I_org+c，利用显著性检测算法将全聚焦图片I_org+c分成两部分，包含图片中显著性特征部分I_focus以及图片的背景特征I_defocus。利用半滤波模糊算法将背景区域图片I_defocus模糊处理，得到具有模糊背景的图片I_blur，半滤波模糊算法将显著性特征部分I_focus进行保留，最后将具有模糊背景的图片I_blur与显著性特征部分I_focus融合，得到所需要的具有散景渲染的图片I_bokeh。图像散景渲染任务的理论模型用公式表示如下：

其中

表示显著性检测算法；

表示半滤波模糊算法。

步骤2.2：构建基于半预测滤波的快速图像散景渲染网络；

基于半预测滤波的快速图像散景渲染网络包括注意力模块，残差模块，半滤波核模块和图像生成模块。其中注意力模块用于检测输入全聚焦图片I_org+c中的显著性特征，用于辅助后续限制性预测滤波模块的工作；残差模块用于对输入数据进行深层的特征增强；半滤波核模块用于生成需要的滤波核，用于对输入图像进行滤波操作，模糊图片部分内容从而产生散景渲染效果，其中滤波核由网络生成的自适应滤波核以及少量的人工定义参数的Gabor滤波核组成，网络生成的自适应滤波核用来自适应的模糊输入图像，人工定义参数的Gabor滤波核用来保留并增强图像的显著性区域细节以及边缘细节；图像生成模块用于生成需要使用半滤波核模块生成的滤波核进行滤波的图片。

残差模块具体结构：残差模块的输入特征图X_res依次经过3个卷积核数量为64，卷积核大小为3*3的卷积层后得到输出特征图X'_res。最后将输出X'_res和输入X_res逐元素相加，得到残差模块的最终输出特征图X_res-out。其中所有的卷积层后都连接一个ReLU非线性激活函数。

注意力模块具体结构：注意力模块的输入特征图X_att的尺寸为高H*宽W*通道C。注意力模块分成上up，中mid，下down三个分支，输入特征图X_att经过up分支的卷积核数量为64，卷积核大小为3*3的卷积层后进行Reshape操作，得到形状为HW*64的特征图X_up；输入特征图X_att经过mid分支的卷积核数量为64，卷积核大小为3*3的卷积层后进行Reshape操作，得到形状为64*HW的特征图X_mid；将特征图X_up与特征图X_mid进行矩阵乘法运算后，采用Softmax函数进行激活，得到形状为HW*HW的特征图X_act；输入特征图X_att经过down分支的卷积核数量为64，卷积核大小为3*3的卷积层后进行Reshape操作，得到形状为HW*64的特征图X_down；将特征图X_act与特征图X_down进行矩阵乘法运算后，再次进行Reshape操作，得到形状为H*W*64的特征图X_final；特征图X_final经过3个卷积核数量为64，卷积核大小为3*3的卷积层后，与输入特征图X_att逐元素相加，得到注意力模块最终的输出特征图X_att-out。其中所有的卷积层后都连接一个ReLU非线性激活函数。

半滤波核模块具体结构：半滤波核模块的输入特征图X_filter的尺寸为高H*宽W*通道C。输入特征图X_filter经过一个滤波核数量均为64的残差模块，得到深层特征信息X_deep；在依次经过卷积核数量为64，卷积核大小为3*3的卷积层和倍数为2的上采样层，得到需要的生成滤波的特征图X'_deep，其尺寸为2H*2W*64；

将特征图X'_deep按照通道维度进行划分，分成尺寸为2H*2W*48的特征图X_A和尺寸为2H*2W*16的特征图X_B；特征图X_A用于生成自适应滤波核，即特征图X_A依次经过卷积核数量为k²，卷积核大小为3*3的卷积层和Softmax激活函数，得到尺寸为2H*2W*k²自适应滤波核X_adp-f，其中k为预定义的滤波核尺寸；特征图X_B用于组合生成固定滤波核参数的边缘滤波核Gabor滤波核，即特征图X_B与给定参数的16个Gabor滤波核进行自定义滤波操作，对16个Gabor滤波核进行线性组合，得到所需要的尺寸为2H*2W*k²边缘滤波核X_gabor-f，用于快速增强图片的边缘信息以变保留，其中16个Gabor滤波核包含8个方向，同方向的Gabor滤波核又包含2个Sigma参数，所以16个Gabor滤波核参数各不相同；最后将自适应滤波核X_adp-f和边缘滤波核X_gabor-f进行逐元素相加，得到最终需要的半滤波核X_filter-out。

图像生成模块具体结构：图像生成模块包含三个输入，同尺度的输入特征图X₁，低尺度的经过上采样操作的输入特征图X₂，输入的半滤波核模块生成的半滤波核X_filter-out。输入特征图X₁依次经过卷积核数量为3，卷积核大小为3*3的卷积层和倍数为2的上采样层，将输出结果与输入特征图X₂进行逐元素相加，得到最终需要进行滤波操作的尺寸为H*W*3的特征图X_gen；将半滤波核X_filter-out和特征图X_gen进行自定义滤波核的卷积操作，得到最终的尺寸为H*W*3的特征图X_out，特征图X_out即为所需要的经过散景渲染处理的图片。

完整网络的具体结构：完整网络分为2个分支，每个分支处理不同尺度的信息；网络的初始输入为步骤1.3生成的全聚焦图片I_org+c；分支1包含残差模块，半滤波核模块和图像生成模块，而分支2包含注意力模块，半滤波核模块和图像生成模块；为了增强不同分支之间的信息关联度，分支2的输入由均经过下采样的分支1的中间信息和全聚焦图片信息组成，而分支2的输出结果会反馈到分支1的图像生成模块，用于指导图像生成模块的运算。

步骤3：训练基于半预测滤波的快速图像散景渲染网络模型。

网络模型的训练方式如下：

首先输入步骤1.3中制作的5通道全聚焦图片I_org+c；然后，通过显著性检测模块和限制性预测滤波模块进行图像的显著性特征保留和背景模糊处理；最后，利用损失函数不断优化模型输出的具有散景渲染的图片I_bokeh，使其逐渐相似于步骤1构建的数据集中的具有真实散景渲染效果的图片I_gt。

训练过程中，损失函数L采用L1函数和LS函数的结合，提高模型输出图片I_bokeh与对比图片I_gt之间的结构相似性，并利用深度学习的反向传播，不断减小模型输出图片I_bokeh和对比图片I_gt之间的差异，从而实现模型输出的具有散景渲染的图片I_bokeh的优化，其具体表示为：

L＝L1(I_bokeh,I_gt)+LS(I_bokeh,I_gt)

其中L1(I_bokeh,I_gt)表示模型输出的具有散景渲染的图片I_bokeh与对比图片I_gt的重构函数，而LS(I_bokeh,I_gt)表示模型输出的具有散景渲染的图片I_bokeh与对比图片I_gt的轮廓相似函数，损失函数表达式如下：

其中Sobel代表对图片进行水平和竖直方向的梯度计算，用于计算图片内容的轮廓结构，N代表图片的像素点个数总和，即图片的宽W×高H。

步骤4：经过训练的神经网络模型接收需要进行散景渲染处理的图片，完成散景渲染处理后将图片输出；

加载由步骤2训练完成的散景渲染网络模型权重，更新模型中的参数。其次，将步骤1.2中修改过尺寸的全聚焦图片I_org+c作为输入数据传入到散景渲染的网络模型中，输入数据依次经过显著性检测模块和限制性预测滤波模块，得到具有散景渲染效果的模型输出图片I_bokeh。

本发明有益效果如下：

1.创新的提出了一种基于半预测滤波的快速图像散景渲染方法，在确保散景渲染质量的前提下实现了图像的快速散景渲染。

2.创新的提出了一种坐标图，用于辅助网络模型的训练，提高网络模型辨别输入图像中重要内容的能力。

附图说明

图1为本发明的方法流程示意图；

图2为单张图像的散景渲染流程图；

图3为基于半预测滤波的快速图像散景渲染网络结构图；

图4为汽车产生散景渲染的效果图；

图5为路灯产生散景渲染的效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明首先进行以下定义及说明：

I_org：全聚焦图片

I_org+c：包含坐标图信息的5通道的全聚焦图片，为网络模型的真实输入信息

I_gt：具有真实散景渲染效果的图片

I_bokeh：具有散景渲染效果的模型输出图片

图2为单张图像的散景渲染流程图；

如图1所示，本发明提出了一种基于半预测滤波的快速图像散景渲染方法，其基本步骤为:

步骤1：数据集制作

步骤1.2：对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸，统一数据集的尺寸有利于减少训练网络所需要的运算时间。

步骤2：构建基于半预测滤波的快速图像散景渲染网络模型；

其中

表示显著性检测算法；

表示半滤波模糊算法。

步骤2.2：构建基于半预测滤波的快速图像散景渲染网络：

所述的基于半预测滤波的快速图像散景渲染网络包括注意力模块，残差模块，半滤波核模块和图像生成模块。其中注意力模块用于检测输入全聚焦图片I_org+c中的显著性特征，用于辅助后续限制性预测滤波模块的工作；残差模块用于对输入数据进行深层的特征增强；半滤波核模块用于生成需要的滤波核，用于对输入图像进行滤波操作，模糊图片部分内容从而产生散景渲染效果，其中滤波核由网络生成的自适应滤波核以及少量的人工定义参数的Gabor滤波核组成，网络生成的自适应滤波核用来自适应的模糊输入图像，人工定义参数的Gabor滤波核用来保留并增强图像的显著性区域细节以及边缘细节；图像生成模块用于生成需要使用半滤波核模块生成的滤波核进行滤波的图片。

将特征图X'_deep按照通道维度进行划分，分成尺寸为2H*2W*48的特征图X_A和尺寸为2H*2W*16的特征图X_B；特征图X_A用于生成自适应滤波核，即特征图X_A依次经过卷积核数量为k²，卷积核大小为3*3的卷积层和Softmax激活函数，得到尺寸为2H*2W*k²自适应滤波核X_adp-f，其中k为预定义的滤波核尺寸；特征图X_B用于组合生成固定滤波核参数的边缘滤波核Gabor滤波核，即特征图X_B与给定参数的16个Gabor滤波核进行自定义滤波操作，对16个Gabor滤波核进行线性组合，得到所需要的尺寸为2H*2W*k²边缘滤波核X_gabor-f，用于快速增强图片的边缘信息以变保留，其中16个Gabor滤波核包含8个方向，同方向的Gabor滤波核又包含2个Sigma参数，所以16个Gabor滤波核参数各不相同；最后将自适应滤波核X_adp-f和边缘滤波核X_gabot-f进行逐元素相加，得到最终需要的半滤波核X_filter-out。

图3为基于半预测滤波的快速图像散景渲染网络结构图；

步骤3：训练基于半预测滤波的快速图像散景渲染网络模型。

网络模型的训练方式如下：

L＝L1(I_bokeh,I_gt)+LS(I_bokeh,I_gt)

步骤4：经过训练的神经网络模型接收需要进行散景渲染处理的图片，完成散景渲染处理后将图片输出

首先，加载由步骤2训练完成的散景渲染网络模型权重，更新模型中的参数。其次，将步骤1.2中修改过尺寸的全聚焦图片I_org+c作为输入数据传入到散景渲染的网络模型中，输入数据依次经过显著性检测模块和限制性预测滤波模块，得到具有散景渲染效果的模型输出图片I_bokeh。

图4为汽车产生散景渲染的效果图；

图5为路灯产生散景渲染的效果图。

Claims

1.一种基于半预测滤波的快速图像散景渲染方法，其特征在于，步骤如下：

步骤1：数据集制作；

步骤2：构建基于半预测滤波的快速图像散景渲染网络模型；

步骤3：训练基于半预测滤波的快速图像散景渲染网络模型；

步骤1具体方法如下：

步骤1.1：通过单反相机拍摄获取不同场景下拍摄的数据，所述的不同场景下拍摄的数据均为一对图片，即分别为单反相机拍摄的全聚焦图片I_org和单反相机利用大光圈真实拍摄的具有散景渲染效果的图片I_gt；其中全聚焦图片I_org作为模型训练过程中的输入图像数据，而具有真实散景渲染效果的图片I_gt作为模型训练过程中的用于与模型输出图像进行对比的对比数据；

步骤1.2：对数据集的所有图片利用双三次线性插值方法插值为高1024×宽1472的尺寸；

步骤1.3：坐标图制作；对步骤1.2处理后的全聚焦图片I_org进行坐标赋值，具体计算方法如下：

其中，X代表图片高维度对应的像素点坐标，Y代表图片宽维度对应的像素点坐标；将X和Y的信息与全聚焦图片I_org进行结合，重新构建一张5通道的全聚焦图片I_org+c作为网络模型的最终输入图片；

步骤2具体方法如下：

步骤2.1：基于半预测滤波的快速图像散景渲染任务理论推导；假设输入是一张全聚焦图片I_org+c，利用显著性检测算法将全聚焦图片I_org+c分成两部分，包含图片中显著性特征部分I_focus以及图片的背景特征I_defocus；利用半滤波模糊算法将背景区域图片I_defocus模糊处理，得到具有模糊背景的图片I_blur，半滤波模糊算法将显著性特征部分I_focus进行保留，最后将具有模糊背景的图片I_blur与显著性特征部分I_focus融合，得到所需要的具有散景渲染的图片I_bokeh；图像散景渲染任务的理论模型用公式表示如下：

其中

表示显著性检测算法；

表示半滤波模糊算法；

步骤2.2：构建基于半预测滤波的快速图像散景渲染网络；

基于半预测滤波的快速图像散景渲染网络包括注意力模块，残差模块，半滤波核模块和图像生成模块；其中注意力模块用于检测输入全聚焦图片I_org+c中的显著性特征，用于辅助后续限制性预测滤波模块的工作；残差模块用于对输入数据进行深层的特征增强；半滤波核模块用于生成需要的滤波核，用于对输入图像进行滤波操作，模糊图片部分内容从而产生散景渲染效果，其中滤波核由网络生成的自适应滤波核以及少量的人工定义参数的Gabor滤波核组成，网络生成的自适应滤波核用来自适应的模糊输入图像，人工定义参数的Gabor滤波核用来保留并增强图像的显著性区域细节以及边缘细节；图像生成模块用于生成需要使用半滤波核模块生成的滤波核进行滤波的图片；

完整网络分为2个分支，每个分支处理不同尺度的信息；网络的初始输入为步骤1.3生成的全聚焦图片I_org+c；分支1包含残差模块，半滤波核模块和图像生成模块，而分支2包含注意力模块，半滤波核模块和图像生成模块；为了增强不同分支之间的信息关联度，分支2的输入由均经过下采样的分支1的中间信息和全聚焦图片信息组成，而分支2的输出结果会反馈到分支1的图像生成模块，用于指导图像生成模块的运算；

残差模块具体结构：残差模块的输入特征图X_res依次经过3个卷积核数量为64，卷积核大小为3*3的卷积层后得到输出特征图X'_res；最后将输出X'_res和输入X_res逐元素相加，得到残差模块的最终输出特征图X_res-out；其中所有的卷积层后都连接一个ReLU非线性激活函数；

注意力模块具体结构：注意力模块的输入特征图X_att的尺寸为高H*宽W*通道C；注意力模块分成上up，中mid，下down三个分支，输入特征图X_att经过up分支的卷积核数量为64，卷积核大小为3*3的卷积层后进行Reshape操作，得到形状为HW*64的特征图X_up；输入特征图X_att经过mid分支的卷积核数量为64，卷积核大小为3*3的卷积层后进行Reshape操作，得到形状为64*HW的特征图X_mid；将特征图X_up与特征图X_mid进行矩阵乘法运算后，采用Softmax函数进行激活，得到形状为HW*HW的特征图X_act；输入特征图X_att经过down分支的卷积核数量为64，卷积核大小为3*3的卷积层后进行Reshape操作，得到形状为HW*64的特征图X_down；将特征图X_act与特征图X_down进行矩阵乘法运算后，再次进行Reshape操作，得到形状为H*W*64的特征图X_final；特征图X_final经过3个卷积核数量为64，卷积核大小为3*3的卷积层后，与输入特征图X_att逐元素相加，得到注意力模块最终的输出特征图X_att-out；其中所有的卷积层后都连接一个ReLU非线性激活函数；

半滤波核模块具体结构：半滤波核模块的输入特征图X_filter的尺寸为高H*宽W*通道C；输入特征图X_filter经过一个滤波核数量均为64的残差模块，得到深层特征信息X_deep；在依次经过卷积核数量为64，卷积核大小为3*3的卷积层和倍数为2的上采样层，得到需要的生成滤波的特征图X'_deep，其尺寸为2H*2W*64；

将特征图X'_deep按照通道维度进行划分，分成尺寸为2H*2W*48的特征图X_A和尺寸为2H*2W*16的特征图X_B；特征图X_A用于生成自适应滤波核，即特征图X_A依次经过卷积核数量为k²，卷积核大小为3*3的卷积层和Softmax激活函数，得到尺寸为2H*2W*k²自适应滤波核X_adp-f，其中k为预定义的滤波核尺寸；特征图X_B用于组合生成固定滤波核参数的边缘滤波核Gabor滤波核，即特征图X_B与给定参数的16个Gabor滤波核进行自定义滤波操作，对16个Gabor滤波核进行线性组合，得到所需要的尺寸为2H*2W*k²边缘滤波核X_gabor-f，用于快速增强图片的边缘信息以变保留，其中16个Gabor滤波核包含8个方向，同方向的Gabor滤波核又包含2个Sigma参数，所以16个Gabor滤波核参数各不相同；最后将自适应滤波核X_adp-f和边缘滤波核X_gabor-f进行逐元素相加，得到最终需要的半滤波核X_filter-out；

图像生成模块具体结构：图像生成模块包含三个输入，同尺度的输入特征图X₁，低尺度的经过上采样操作的输入特征图X₂，输入的半滤波核模块生成的半滤波核X_filter-out；输入特征图X₁依次经过卷积核数量为3，卷积核大小为3*3的卷积层和倍数为2的上采样层，将输出结果与输入特征图X₂进行逐元素相加，得到最终需要进行滤波操作的尺寸为H*W*3的特征图X_gen；将半滤波核X_filter-out和特征图X_gen进行自定义滤波核的卷积操作，得到最终的尺寸为H*W*3的特征图X_out，特征图X_out即为所需要的经过散景渲染处理的图片；

步骤3具体方法如下：

网络模型的训练方式如下：

首先输入步骤1.3中制作的5通道全聚焦图片I_org+c；然后，通过显著性检测模块和限制性预测滤波模块进行图像的显著性特征保留和背景模糊处理；最后，利用损失函数不断优化模型输出的具有散景渲染的图片I_bokeh，使其逐渐相似于步骤1构建的数据集中的具有真实散景渲染效果的图片I_gt；

L＝L1(I_bokeh,I_gt)+LS(I_bokeh,I_gt)

其中Sobel代表对图片进行水平和竖直方向的梯度计算，用于计算图片内容的轮廓结构，N代表图片的像素点个数总和，即图片的宽W×高H；

步骤4具体方法如下：

加载由步骤2训练完成的散景渲染网络模型权重，更新模型中的参数；其次，将步骤1.2中修改过尺寸的全聚焦图片I_org+c作为输入数据传入到散景渲染的网络模型中，输入数据依次经过显著性检测模块和限制性预测滤波模块，得到具有散景渲染效果的模型输出图片I_bokeh。