CN112116646B

CN112116646B - 一种基于深度卷积神经网络的光场图像深度估计方法

Info

Publication number: CN112116646B
Application number: CN202011007828.1A
Authority: CN
Inventors: 韩磊; 尤尼·马库拉; 黄晓华; 施展; 吴晓彬; 夏明亮
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-11-24
Anticipated expiration: 2040-09-23
Also published as: CN112116646A

Abstract

本发明公开了一种基于深度卷积神经网络的光场图像深度估计方法，由场景的4D光场数据提取中心子孔径图像；由4D光场数据计算生成水平EPI合成图像和垂直EPI合成图像；设计以中心子孔径图像、水平EPI合成图像和垂直EPI合成图像为输入，视差图为输出的深度卷积神经网络；以平均绝对误差为损失函数，训练所涉及的深度卷积神经网络；利用训练成功的深度卷积神经网络，接收由给定场景4D光场数据生成的中心子孔径图像、水平EPI合成图像、垂直EPI合成图像，计算得到场景的视差图。本发明所设计的深度卷积神经网络采用了多流输入、跳层连接体系结构，有利于多源输入信息、浅层深层特征信息融合，提高了深度估计的鲁棒性。

Description

一种基于深度卷积神经网络的光场图像深度估计方法

技术领域

本发明属于计算机视觉与人工智能技术领域，具体涉及是一种基于深度卷积神经网络的光场深度估计方法。

背景技术

A.Gershun等人在20世纪上半叶已经提出了光场概念，用以描述光在三维空间中的辐射特性，然而，光场成像技术相对滞后于理论概念的发展。陆续出现了相机阵列、相机位移架、编码光圈、微透镜阵列等光场成像设备，其中，微透镜光场相机已经进入消费类电子领域，具有较大工业应用和学术研究价值。

深度估计即确定场景中物点与成像***之间的距离，是计算机视觉中的基本问题之一，广泛应用于三维重建、视觉导航、工业检测等领域。光场成像因其复杂的成像几何和丰富的图像数据，为解决深度估计问题提供了崭新途径。前期，一些学者根据光场成像几何关系，建立图像中深度信息的特征描述，进而估计场景深度。随着深度学习技术的兴起，不少学者利用深度学习技术提取特征并估计深度。

有的研究虽基于光场的多视角信息，但未考虑极线几何；有的直接运用了极线图块的局部纹理特性，但未考虑场景全局分布。现有研究公开的方法运用了极线几何约束下EPI图像特性，但较少直接运用EPI图像纹理特性或仅仅运用了局部纹理特性，由此设计的深度神经网络在光场图像深度估计方面的性能有待提高，尤其深度估计精度、遮挡边沿细节处理方面仍可进一步提高，这些指标在三维重建等应用中起到关键作用。为此，设计深度估计精度高、边缘处理清晰、计算时间少的光场深度估计方法具有应用意义。

当前，基于深度学习的光场深度估计方法多采用卷积神经网络作为特征提取的工具，在网络体系结构、数据增强等当面提出创新方法，但仍存在对EPI纹理结构利用不充分，特征提取能力受限，对遮挡和噪声处理能力不足的现象。为此，本发明设计了以富纹理拼接EPI图像和光场中心子孔径图像为输入，融合多流和短接体系结构为一体的轻量级深度卷积神经网络；运用该网络进行深度估计，具有准确度高、边界处理清晰、计算速度快等优点。

发明内容

发明目的：本发明提供一种基于深度卷积神经网络的光场深度估计方法，能够在适当的计算平台上实时地由光场数据计算得到高准确度的深度估计结果。

技术方案：本发明所述的一种基于深度卷积神经网络的光场深度估计方法，具体包括以下步骤：

(1)从4D光场数据中提取中心子孔径图像其中(i^C,j^C)表示中心子孔径图像的视角坐标；

(2)由4D光场数据分别计算生成水平EPI合成图像和垂直EPI合成图像/>

(3)构建深度卷积神经网络的网络模型DCNET，接收三个输入流，输出与中心子孔径图像/>同分辨率的视差图D；

(4)以MAE为损失函数，训练步骤(3)所述的DCNET，得到网络最优参数集P；

(5)对场景的4D光场数据执行第(1)步和第(2)步的处理后，输入至步骤(4)训练好的网络，计算输出该场景的视差图。

进一步地，步骤(1)所述的提取中心子孔径图像是抽取每个微透镜图像的中心像素，按微透镜位置索引排列得到二维图像，即

进一步地，所述步骤(2)包括以下步骤：

(21)对于中心子孔径图像中的每一行，k^*为行序号，计算其对应的EPI图像/>由4D光场数据生成中心子孔径图像中第k^*行像素对应的EPI图像的过程可以看作一个映射：/>即固定4D光场中的i和k两个维度，变化另外两个维度所得到的二维切片图像，令i＝i*＝i^C，k＝k*；

(22)将EPI图像集合，按照行号从上到下依次拼接起来，得到水平EPI合成图像假设4D光场在i、j、k、l四个维度上的大小分别为N_i、N_j、N_k、N_l，则中心子孔径图像中第k^*行像素对应的EPI图像/>的大小为(N_j×N_l)；为/>预留(N_j×N_k)行、N_l列的存储空间，设置初值为0；对于步骤(21)所得的EPI图像集合中的每一幅图像/>根据行号将/>逐像素赋给表示中的第(k^*-1)×N_j行至第k^*×N_j行，第0列至第(N_j-1)列的一块区域；

(23)对于中心子孔径图像中的每一列，l^*为列序号，计算其对应的EPI图像/>由4D光场数据生成中心子孔径图像中第l^*列像素对应的EPI图像的过程可以看作一个映射：/>即固定4D光场中的j和l两个维度，变化另外两个维度所得到的二维切片图像，令j＝j*＝j^C，l＝l*；

(24)将步骤(23)所得的EPI图像集合，按照列号从左到右依次拼接起来，得到垂直EPI合成图像假设4D光场在i、j、k、l四个维度上的大小分别为N_i、N_j、N_k、N_l，则中心子孔径图像中第l^*列像素对应的EPI图像/>的大小为(N_k×N_i)；为/>预留(N_k)行、(N_l×N_i)列的存储空间，设置初值为0；对于步骤(23)所得的EPI图像集合中的每一幅图像/>根据行号将/>逐像素赋给表示中的第0行至第(N_k-1)行，第(l^*-1)×N_j列至第l^*×N_j列的一块区域。

进一步地，步骤(3)所述的深度卷积神经网络的网络模型DCNET，包括多流输入、编码、解码、跳层连接、视差图输出模块；所述编码模块用于提取输入图像的特征，由A类单元和B类单元构成，A类单元的基本结构是“卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”，B类单元的基本结构是“卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”；所述编码模块的单元序列分为两个阶段：三个流单独编码阶段和综合编码阶段，其中，EPIh流和EPIv流的单独编码阶段包含4个A类单元，而CV流的单独编码阶段包含3个A类单元；随后，将三个流的编码结果级联起来，进行综合编码，综合编码阶段包含3个B类单元；所述解码模块用于逐步恢复高分辨率输出，由6个C类基本单元构成，C类单元的基本结构是“反卷积层+卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层”；所述跳层连接有CC1、CC2、CC3三个连接，CC1将EPIh流的第1个A类单元输出特征图、中心子孔径图像、EPIv流的第1个A类单元输出特征图级联到解码模块的第6个C类单元的反卷积层之后，CC2将EPIh流的第2个A类单元输出特征图、CV流的第1个A类单元输出特征图、EPIv流的第2个A类单元输出特征图级联到解码模块的第5个C类单元的反卷积层之后，CC3将EPIh流的第3个A类单元输出特征图、CV流的第2个A类单元输出特征图、EPIv流的第3个A类单元输出特征图级联到解码模块的第4个C类单元的反卷积层之后；所述输出模块将多通道特征图回归于单通道视差图，由1×1卷积层实现与中心子孔径图像等分辨率的视差图输出。

进一步地，所述步骤(4)包括以下步骤：

(41)MAE损失函数是指平均绝对误差损失，其计算方法是：

其中，表示视差预测值，y_i表示视差真值，n表示损失计算时样本点总数；

(42)设置DCNET网络的超参数：初始化卷积神经网络学***均绝对误差MAE，设置训练批次大小16，迭代次数为200000；

(43)获取包含场景光场数据和场景视差真值的光场数据集，并将其划分为训练集和验证集；

(44)基于光场数据训练集，逐批生成训练所需的3流输入数据，使用RMSProp算法迭代训练；

(45)在光场数据验证集上进行测试评价，对于验证集内光场数据，利用训练后的DCNET网络输出预测的视差图，利用MSE和BadPix两个指标评价预测结果和真值之间差异；

(46)经步骤(45)评价，取得优异性能的网络参数集合P作为最优参数。

有益效果：与现有技术相比，本发明的有益效果：(1)本发明将光场EPI图像逐行或逐列拼接起来，分别得到水平EPI合成图像和垂直EPI合成图像，联合中心子孔径图像作为所设计深度卷积神经网络的多流输入，拼接形成的EPI合成图像具有更丰富的纹理信息，有助于卷积神经网络进行特征提取，提高了深度估计准确度；(2)所设计的深度卷积神经网络采用了多流输入、跳层连接体系结构，有利于多源输入信息、浅层深层特征信息融合，提高了深度估计的鲁棒性。

附图说明

图1为本发明的流程图；

图2为本发明中的中心子孔径图像示例示意图；

图3为本发明中的水平EPI合成图像示例示意图；

图4为本发明中的生成水平EPI合成图像的流程图；

图5为本发明中的垂直EPI合成图像示例示意图；

图6为本发明设计的深度卷积神经网络DCNET结构图；

图7为本发明中训练DCNET网络的流程图；

图8为本发明中在EPI图像上选择像素的示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明公开的一种基于深度卷积神经网络的光场图像深度估计方法，包括如下步骤：

步骤1：从4D光场数据中提取中心子孔径图像其中(i^C,j^C)表示中心子孔径图像的视角坐标。

4D光场数据是由光场相机所采集光场图像的解码表示，记为L:(i,j,k,l)→L(i,j,k,l)，其中，(i,j)表示微透镜图像的像素索引坐标，(k,l)表示微透镜中心的索引坐标，L(i,j,k,l)表示通过微透镜中心(k,l)和微透镜图像像素(i,j)的光线的辐射强度；提取中心子孔径图像的方法是抽取每个微透镜图像的中心像素，按微透镜位置索引排列得到二维图像，即图2给出了一幅中心子孔径图像的示例。

步骤2：由4D光场数据分别计算生成水平EPI合成图像和垂直EPI合成图像

图3给出了步骤2所述的水平EPI合成图像示例。由4D光场数据计算生成水平EPI合成图像的特征在于，包括如下步骤，如图4所示：

(1)对于中心子孔径图像中的每一行(行序号：k^*)，计算其对应的EPI图像

具体地，由4D光场数据生成中心子孔径图像中第k^*行像素对应的EPI图像的过程可以看作一个映射：即固定4D光场中的i和k两个维度，变化另外两个维度所得到的二维切片图像，令i＝i*＝i^C，k＝k*。

(2)将步骤(1)所得的EPI图像集合，按照行号(k^*)从上到下依次拼接起来，得到水平EPI合成图像

具体地，假设4D光场在i、j、k、l四个维度上的大小分别为N_i、N_j、N_k、N_l，则中心子孔径图像中第k^*行像素对应的EPI图像的大小为(N_j×N_l)。首先为/>预留(N_j×N_k)行、N_l列的存储空间，设置初值为0；然后，对于步骤(2A1)所得的EPI图像集合中的每一幅图像根据行号(k^*)将/>逐像素赋给/>这里，表示/>中的第(k^*-1)×N_j行至第k^*×N_j行，第0列至第(N_j-1)列的一块区域。

图5给出了步骤2所述的垂直EPI合成图像示例。由4D光场数据计算生成垂直EPI合成图像的特征在于，包括如下步骤：

(1)对于中心子孔径图像中的每一列(列序号：l^*)，计算其对应的EPI图像

具体地，由4D光场数据生成中心子孔径图像中第l^*列像素对应的EPI图像的过程可以看作一个映射：即固定4D光场中的j和l两个维度，变化另外两个维度所得到的二维切片图像，令j＝j*＝j^C，l＝l*。

(2)将所得的EPI图像集合，按照列号(l^*)从左到右依次拼接起来，得到垂直EPI合成图像

具体地，假设4D光场在i、j、k、l四个维度上的大小分别为N_i、N_j、N_k、N_l，则中心子孔径图像中第l^*列像素对应的EPI图像的大小为(N_k×N_i)。首先为/>预留(N_k)行、(N_l×N_i)列的存储空间，设置初值为0；然后，对于步骤(2B1)所得的EPI图像集合中的每一幅图像根据行号(l^*)将/>逐像素赋给/>这里，表示/>中的第0行至第(N_k-1)行，第(l^*-1)×N_j列至第l^*×N_j列的一块区域。

步骤3：构建深度卷积神经网络的网络模型DCNET，接收三个输入流，最终输出与中心子孔径图像/>同分辨率的视差图D。

:深度卷积神经网络的网络模型DCNET，如图6所示，包括多流输入、编码、解码、跳层连接、视差图输出等主要模块。DCNET网络采用多流结构体系结构的目的是充分利用多角度EPI合成图像的丰富纹理以及中心子孔径图像的像素位置邻域关系，该网络使用EPIh流、CV流和EPIv流分别接收水平EPI合成图像中心子孔径图像/>垂直EPI合成图像编码模块用于提取输入图像的特征，由多个A类单元和B类单元构成，A类单元的基本结构是“卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”，B类单元的基本结构是“卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”；编码模块的单元序列分为两个阶段：三个流单独编码阶段和综合编码阶段，其中，EPIh流和EPIv流的单独编码阶段包含4个A类单元，而CV流的单独编码阶段包含3个A类单元；随后，将三个流的编码结果级联起来，进行综合编码，综合编码阶段包含3个B类单元。解码模块用于逐步恢复高分辨率输出，由6个C类基本单元构成，C类单元的基本结构是“反卷积层+卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层”。跳层连接有CC1、CC2、CC3三个连接，CC1将EPIh流的第1个A类单元输出特征图、中心子孔径图像、EPIv流的第1个A类单元输出特征图级联到解码模块的第6个C类单元的反卷积层之后，CC2将EPIh流的第2个A类单元输出特征图、CV流的第1个A类单元输出特征图、EPIv流的第2个A类单元输出特征图级联到解码模块的第5个C类单元的反卷积层之后，CC3将EPIh流的第3个A类单元输出特征图、CV流的第2个A类单元输出特征图、EPIv流的第3个A类单元输出特征图级联到解码模块的第4个C类单元的反卷积层之后。输出模块将多通道特征图回归于单通道视差图，由1×1卷积层实现与中心子孔径图像等分辨率的视差图输出。

EPIh流的第1个A类单元中，所有卷积核为3×3，滑动步长为1，滤波器个数为10；最后的池化层的窗口尺寸为(1,9)，滑动步长也设置为与窗口尺寸相同的默认值。EPIv流的第1个A类单元中，所有卷积核为滑动步长为1，滤波器个数为10；最后的池化层的窗口尺寸为(9,1)，滑动步长也设置为与窗口尺寸相同的默认值。EPIh流与EPIv流的第2、3、4个A类单元以及CV流的第1、2、3个A类单元的参数设置相同，即卷积核均为2×2，滑动步长为1，滤波器个数分别为20、40、80，池化层的窗口尺寸为(2,2)，步长也为(2,2)。

编码模块的3个B类单元中，所有卷积核均为2×2，滑动步长为1，单元内各卷积层滤波器个数相同，不同单元滤波器个数不同，由前到后，3个B类单元卷积层滤波器个数分别是160、320、640。3个B类单元的池化层窗口尺寸均为(2,2)，步长也为(2,2)。

解码模块的6个C类单元中，所有反卷积层和卷积层的核均为(2,2)，滑动步长也设置为(2,2)，同一单元内的所有反卷积层以及卷积层所使用的滤波器个数相同，不同单元滤波器个数不同，6个C类单元所采用的滤波器个数分别是320、160、80、40、20、10.

步骤4：以MAE为损失函数，训练步骤3所述的DCNET，得到网络最优参数集P。

MAE损失函数是指平均绝对误差损失，其计算方法是：

其中，表示视差预测值，y_i表示视差真值，n表示损失计算时样本点总数。

训练DCNET网络过程如图7所示，包括如下步骤：

(1)设置DCNET网络的超参数：初始化卷积神经网络学***均绝对误差MAE，设置训练批次大小16，迭代次数为200000。

(2)准备光场数据集，并将其划分为训练集和验证集。具体地，光场数据集需包含场景光场数据和场景视差真值，可以通过两种途径获得：一是通过仿真软件设置深度真值，并绘制光场；二是通过光场相机采集光场数据，并通过激光测距设备获取深度值，进而根据相机参数转化为视差真值。将构建的光场数据集，按照6:4的比例，随机分成训练集和验证集两部分。

(3)基于光场数据训练集，逐批生成训练所需的3流输入数据，使用RMSProp算法迭代训练。如图8所示，包括如下步骤：

1)总整幅场景中随机选择64×64的场景区块，以节约训练过程中的内存消耗。

2)从原始状态、翻转90°、翻转180°、翻转270°四种增强模式中随机选择一种。

3)根据步骤2)所选的增强模式，生成一批增强数据。假设所选是原始状态模式，则根据步骤1和步骤2的方法生成场景区块的水平EPI合成图像、中心子孔径图像、垂直EPI合成图像。假设所选增强模式是翻转90°，那么将原始区块垂直EPI合成图像逆时针旋转90°作为增强区块的水平EPI合成图像，将原始区块中心子孔径图像逆时针旋转90°作为增强区块的中心子孔径图像，将原始区块的水平EPI合成图像顺时针旋转90°作为增强区块的垂直EPI合成图像。假设所选增强模式是翻转180°，那么将原始区块水平EPI合成图像逆时针旋转180°作为增强区块的水平EPI合成图像，将原始区块中心子孔径图像逆时针旋转180°作为增强区块的中心子孔径图像，将原始区块垂直EPI合成图像逆时针旋转180°作为增强区块的垂直EPI合成图像。假设所选增强模式是翻转270°，那么将原始区块的垂直EPI合成图像顺时针旋转90°作为增强区块的水平EPI合成图像，将原始区块的中心子孔径图像逆时针旋转270°作为增强区块的中心子孔径图像，将原始区块的水平EPI合成图像顺时针旋转90°作为增强区块的垂直EPI合成图像。

4)利用RMSProp算法，每个批次更新一次参数。

5)如果达到训练迭代次数门限值，则结束训练；否则，重复1)步骤至4)步骤。

(4)评价训练效果。在光场数据验证集上进行测试评价，对于验证集内光场数据，按照步骤1和步骤2中方法生成网络DCNET所需的输入图像，利用训练后的DCNET网络输出预测的视差图。利用MSE和BadPix两个指标评价预测结果和真值之间差异。MSE指标是均方误差值，计算方法为：

其中，M表示参与评价的像素掩模集合，x是M中元素，d(x)表示像素x对应的预测视差，gt(x)表示像素x对应的视差真值，|M|表示M中元素个数。

BadPix是评价预测与真实值偏差达到门限值的像素比例，计算方法为：

同样，M表示参与评价的像素掩模集合，x是M中元素，d(x)表示像素x对应的预测视差，gt(x)表示像素x对应的视差真值，|M|表示M中元素个数；而这里的t表示一个预设的门限值，通常设置为0.01、0.03、0.07。

(5)经步骤(4)评价，取得优异性能的网络参数集合P作为最优参数。

步骤5：对场景的4D光场数据步骤1和步骤2的处理后，输入至步骤4训练好的网络，得到场景的视差图。

4D光场数据是指利用光场相机拍摄场景原始图像，经过解码后得到4D光场数据，记为L:(i,j,k,l)→L(i,j,k,l)，其中，(i,j)表示微透镜图像的像素索引坐标，(k,l)表示微透镜中心的索引坐标，L(i,j,k,l)表示通过微透镜中心(k,l)和微透镜图像像素(i,j)的光线的辐射强度。

Claims

1.一种基于深度卷积神经网络的光场图像深度估计方法，其特征在于，包括以下步骤：

(5)对场景的4D光场数据执行第(1)步和第(2)步的处理后，输入至步骤(4)训练好的网络，计算输出该场景的视差图；

所述步骤(2)包括以下步骤：

(23)对于中心子孔径图像中的每一列，l^*为列序号，计算其对应的EPI图像/>由4D光场数据生成中心子孔径图像中第l^*列像素对应的EPI图像的过程可以看作一个映射：/>即固定4D光场中的j和l两个维度，变化另外两个维度所得到的二维切片图像，令j＝j*＝j^C，l＝l*；(24)将步骤(23)所得的EPI图像集合，按照列号从左到右依次拼接起来，得到垂直EPI合成图像/>假设4D光场在i、j、k、l四个维度上的大小分别为N_i、N_j、N_k、N_l，则中心子孔径图像中第l^*列像素对应的EPI图像/>的大小为(N_k×N_i)；为/>预留(N_k)行、(N_l×N_i)列的存储空间，设置初值为0；对于步骤(23)所得的EPI图像集合中的每一幅图像/>根据行号将/>逐像素赋给表示/>中的第0行至第(N_k-1)行，第(l^*-1)×N_j列至第l^*×N_j列的一块区域。

2.根据权利要求1所述的基于深度卷积神经网络的光场图像深度估计方法，其特征在于，步骤(1)所述的提取中心子孔径图像是抽取每个微透镜图像的中心像素，按微透镜位置索引排列得到二维图像，即/>

3.根据权利要求1所述的基于深度卷积神经网络的光场图像深度估计方法，其特征在于，步骤(3)所述的深度卷积神经网络的网络模型DCNET，包括多流输入、编码、解码、跳层连接、视差图输出模块；所述编码模块用于提取输入图像的特征，由A类单元和B类单元构成，A类单元的基本结构是“卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”，B类单元的基本结构是“卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”；所述编码模块的单元序列分为两个阶段：三个流单独编码阶段和综合编码阶段，其中，EPIh流和EPIv流的单独编码阶段包含4个A类单元，而CV流的单独编码阶段包含3个A类单元；随后，将三个流的编码结果级联起来，进行综合编码，综合编码阶段包含3个B类单元；所述解码模块用于逐步恢复高分辨率输出，由6个C类基本单元构成，C类单元的基本结构是“反卷积层+卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层”；所述跳层连接有CC1、CC2、CC3三个连接，CC1将EPIh流的第1个A类单元输出特征图、中心子孔径图像、EPIv流的第1个A类单元输出特征图级联到解码模块的第6个C类单元的反卷积层之后，CC2将EPIh流的第2个A类单元输出特征图、CV流的第1个A类单元输出特征图、EPIv流的第2个A类单元输出特征图级联到解码模块的第5个C类单元的反卷积层之后，CC3将EPIh流的第3个A类单元输出特征图、CV流的第2个A类单元输出特征图、EPIv流的第3个A类单元输出特征图级联到解码模块的第4个C类单元的反卷积层之后；所述输出模块将多通道特征图回归于单通道视差图，由1×1卷积层实现与中心子孔径图像等分辨率的视差图输出。

4.根据权利要求1所述的基于深度卷积神经网络的光场图像深度估计方法，其特征在于，所述步骤(4)包括以下步骤：

(41)MAE损失函数是指平均绝对误差损失，其计算方法是：