CN115272435A

CN115272435A - 一种基于光场序列特征分析的光场深度估计方法

Info

Publication number: CN115272435A
Application number: CN202210721840.1A
Authority: CN
Inventors: 韩磊; 杨庆; 焦良葆; 路绳方; 郑胜男; 施展; 俞翔; 黄晓华
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-11-01

Abstract

本发明公开了一种基于光场序列特征分析的光场深度估计方法，从双平面表示的4D光场数据中提取中心子孔径图像，并计算生成EPI合成图像；设计以中心子孔径图像和EPI合成图像为输入，视差图为输出的LFRNN网络，网络包括基于光场序列分析的局部深度估计模块和基于条件随机场模型的全局深度优化模块；分局部深度估计和全局优化两个阶段训练并评估LFRNN网络；测试与实用LFRNN网络，评价网络性能。本发明另辟蹊径地从序列数据的视角分析光场，设计了基于循环神经网络的深度特征提取子网络，显著提高了局部深度估计能力；对全局深度信息建模，设计的端到端优化网络，显著提升了深度估计准确度和鲁棒性。

Description

一种基于光场序列特征分析的光场深度估计方法

技术领域

本发明属于计算机视觉与人工智能技术领域，具体涉及一种基于光场序列特征分析的光场深度估计方法。

背景技术

微透镜光场相机已经进入消费类电子领域，具有较大工业应用和学术研究价值。微透镜光场相机为解决深度估计问题提供了新途径。一方面，光场成像不仅能够记录光线位置，而且能够记录光线的方向，为深度估计提供了几何依据；另一方面，微透镜光场相机具有单目多视角图像采集能力，方便了视觉***部署，为拓展深度估计应用奠定了物理基础。

基于微透镜光场相机的深度估计是近十年兴起的研究热点，大致分为传统深度估计和基于学***行四边形算子定位EPI图像上直线位置，进行深度估计。中国发明专利“一种基于光场的深度估计(ZL201510040975.1)”也利用结构张量作为初始深度估计的方法。基于结构算子的传统深度估计方法，可解释性强，但算子描述能力有限，深度估计的准确度存在提升瓶颈。

近年来，随着深度学***方向EPI块和垂直方向EPI块的信息，然后进行回归融合，得到深度图。中国发明专利申请“一种基于多模态信息的光场深度估计方法(公布号：CN 112767466 A)”利用卷积和空洞卷积对焦点堆栈和中心视图进行分析处理，进而预测场景深度。

深度估计理论建模、光场数据提取方法、神经网络设计等影响着深度估计效果。目前，基于学习的方法已经成为光场深度估计方法的主流，取得了长足进步；但深度估计的准确度，以及在遮挡、噪声等方面的鲁棒性均有待提高，尤其是光场数据提取和神经网络数据处理等技术环节亟待革新突破。为此，本发明公开了一种基于向量序列分析的光场图像处理方法，并设计了局部深度估计和全局优化为一体的端到端深度估计网络，运用该网络进行光场深度估计，准确度显著提高，为三维重建、三维缺陷检测等应用提供了良好支撑。

发明内容

发明目的：本发明提供一种基于光场序列特征分析的光场深度估计方法，能够估计高准确度深度结果，支撑光场三维重建、缺陷检测等应用。

技术方案：本发明所述的一种基于光场序列特征分析的光场深度估计方法，具体包括以下步骤：

(1)从4D光场数据中提取中心子孔径图像

其中(i^C,j^C)表示中心子孔径图像的视角坐标；

(2)由4D光场数据计算生成EPI合成图像I^SEPI；

(3)构建光场神经网络模型LFRNN，接收I^SEPI、

输入，输出与中心子孔径图像

同分辨率的视差图D；所述光场神经网络模型LFRNN包括基于光场序列分析的局部深度估计模块和基于条件随机场模型的深度优化模块；

(4)训练步骤(3)构建的光场神经网络模型LFRNN，得到网络最优参数集P：将训练分为两个阶段进行，两个阶段均采用平均绝对误差作为损失函数；第一个阶段仅训练基于光场序列分析的局部深度估计模块，得到该模块的最优参数集P1；第二阶段冻结基于光场序列分析的局部深度估计模块的最优参数集P1，并训练整个网络，更新基于条件随机场模型的深度优化模块的参数，得到LFRNN网络的最优参数集P。

进一步地，所述步骤(1)实现过程如下：

4D光场数据是由光场相机所采集光场图像的解码表示，记为L:(i,j,k,l)→L(i,j,k,l)，其中，(i,j)表示微透镜图像的像素索引坐标或称视角坐标，(k,l)表示微透镜中心的索引坐标，i,j,k,l均为整数，L(i,j,k,l)表示(i,j)视角下通过(k,l)位置处的光线的辐射强度；抽取每个微透镜图像的中心像素，按微透镜位置索引排列得到二维图像，即

其中(i^C,j^C)表示中心子孔径图像的视角坐标。

进一步地，所述步骤(2)实现过程如下：

(21)根据输入4D光场的维度，初始化I^SEPI为全0矩阵：

4D光场L:(i,j,k,l)→L(i,j,k,l)中，角度分辨率为N_Ai×N_Aj，即i∈[0,N_Ai)，j∈[0,N_Aj)；空间分辨率为N_Sk×N_Sl，即k∈[0,N_Sk)，l∈[0,N_Sl)；则I^SEPI是(N_Sk×N_Aj)×N_Sl的二维矩阵，初始化为全0矩阵；

(22)对于4D光场第三维k的每一行，行序号为k^*，计算其对应的EPI图像

并使用

更新I^SEPI的部分区域：

由4D光场数据计算生成第三维第k^*行对应的EPI图像的过程看作一个映射：

即固定4D光场中的第一和第三两个维度，变化另外两个维度所得到的二维切片图像，令i＝i^C，k＝k*；

使用所得的

更新I^SEPI的部分区域，即

这里，I^SEPI((k*-1)×N_Aj:k*×N_Aj,0:N_Sl)表示I^SEPI中第(k*-1)×N_Aj行至第k*×N_Aj-1行，第0列至第N_Sl-1列的一块区域；

(23)对4D光场第三维的每一行进行步骤(22)的操作，计算生成EPI合成图像I^SEPI。

进一步地，步骤(3)所述基于光场序列分析的局部深度估计模块实包括滑窗处理层、序列特征提取子网络、特征图变形层；

所述滑窗处理层负责在EPI合成图像I^SEPI上滑动截取EPI块I^EPI-p，输入到序列特征提取子网络；滑窗大小为(N_Aj,16)，水平方向滑动步长为1，垂直方向滑动步长为N_Aj，滑窗超越I^SEPI时，补0填充；

所述序列特征提取子网络为提取EPI块I^EPI-p的序列特征的循环神经网络，包括序列化拆分处理、双向GRU层和全连接网络；其中序列化拆分处理是基于EPI图像上蕴含着深度信息的直线分布于多列像素之中的独特观察，将N_Aj×16的EIP图像块I^EPI-p的每列像素，看作一个列向量

其中，x、y分别表示EPI图像块I^EPI-p上像素的行、列坐标，

表示EPI图像块I^EPI-p上(x,y)处像素的灰度值；一个N_Aj×16的EPI图像块I^EPI-p可以序列化为16个列向量G_y，0≤y≤15且y为整数；向量G_y将依次作为后续双向GRU层每个时刻的输入；双向GRU层由两个方向的GRU单元构成，每个方向GRU单元的维度为256，每个GRU单元设置为非序列工作模式，接收16个时刻的向量输入，产生1个输出；双向GRU层共计产生512个输出；全连接网络包含两个全连接层；第一个全连接层接收双向GRU层的512个输出，产生16个输出；该层全连接配置ReLU激活函数；第二个全连接层接收前一个全连接层的16个输出，输出1个视差值；该全连接层不配置激活函数；

所述特征图变形层将(N_Sk×N_Sl)个视差值序列，变形成N_Sk×N_Sl的矩阵，称为特征图，记为U。

进一步地，步骤(3)所述基于条件随机场模型的深度优化模块包括中心子孔径图像核参数提取和特征图迭代优化两部分；中心子孔径图像核参数提取部分是根据输入的中心子孔径图像计算滤波器核参数；特征图迭代优化部分是以条件随机场为理论基础，按照中心子孔径图像核参数提取部分所得滤波器核参数，将特征图迭代优化，得到视差图D；

中心子孔径图像核参数提取部分以中心子孔径图像

为输入，计算空间和色彩卷积核F₁和空间卷积核F₂：

其中，p_i、p_j分别表示中心子孔径图像

上第i个、第j个像素的位置信息，c_i、c_j分别表示中心子孔径图像

上第i个、第j个像素的色彩信息，θ_α、θ_β、θ_γ为自定义的带宽半径；

特征图迭代优化部分包括并行滤波、一元项叠加、归一化因子计算、归一化四个模块；并行滤波模块通过两个通路分别对本次迭代输入μ^t-1进行滤波处理：第一个通路利用卷积核F₁对μ^t-1进行滤波，即

然后，对滤波结果

乘以权重参数θ₁，即

第二通路用卷积核F₂对μ^t-1进行滤波，即

然后，对滤波结果

乘以权重参数θ₂，即

第一次迭代时，μ^t-1初始化为特征图U；θ₁、θ₂做随机初始化，通过网络训练获得更新；两个通路的结果

逐元素相加得到并行滤波模块的输出

即

一元项添加模块是将特征图U与并行滤波模块的结果

相叠加，得

即

归一化因子计算模块内部也进行了并行滤波和一元项添加操作，得到归一化因子γ；其数据处理的对象是全1矩阵J，而不是μ^t-1和特征图U；归一化因子计算模块的具体处理步骤是：

归一化模块是将一元项添加的模块的计算结果

对归一化因子γ按逐元素相除，得到本轮迭代的输出μ^t，即

最后一次迭代的输出即是优化的视差图D。

有益效果：与现有技术相比，本发明的有益效果：1、本发明依据光场成像几何，另辟蹊径地从序列数据的视角分析光场，设计了基于循环神经网络的深度特征提取子网络，替代了传统卷积神经网络的特征提取方法，显著提高了局部深度估计能力；2、本发明依据条件随机场理论，对全局深度信息建模，设计了端到端的优化网络，显著提升了深度估计准确度和鲁棒性。

附图说明

图1为本发明的流程图；

图2为本发明中的4D光场双平面表示图；

图3为本发明中的计算生成EPI合成图像的流程图；

图4为本发明中的中心子孔径图像及EPI图像示例；

图5为本发明中的EPI合成图像示意图；

图6为本发明设计的LFRNN网络体系结构图；

图7为本发明设计的序列特征提取子网络的结构图；

图8为本发明设计的基于条件随机场模型的深度优化模块的结构图；

图9为本发明与现有方法的结果对比示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明公开的一种基于光场序列特征分析的光场深度估计方法，包括如下步骤：

步骤1、从4D光场数据中提取中心子孔径图像

其中(i^C,j^C)表示中心子孔径图像的视角坐标。

4D光场数据是由光场相机所采集光场图像的解码表示，如图2所示，通常用双平面法(2PP)表示光场数据，图中Π和Ω是平行平面，分别表示视角平面和位置平面，通过光线与双平面的交点表示一条光线，所有非平行于双平面的光线，形成了光场。通常将光场记为L:(i,j,k,l)→L(i,j,k,l)，其中，(i,j)表示微透镜图像的像素索引坐标或称视角坐标，(k,l)表示微透镜中心的索引坐标，i,j,k,l均为整数，L(i,j,k,l)表示(i,j)视角下通过(k,l)位置处的光线的辐射强度。提取中心子孔径图像的方法是抽取每个微透镜图像的中心像素，按微透镜位置索引排列得到二维图像，即

其中(i^C,j^C)表示中心子孔径图像的视角坐标。

步骤2、由4D光场数据计算生成EPI合成图像I^SEPI；如图3所示，包括如下步骤：

(2.1)根据输入4D光场的维度，初始化I^SEPI为全0矩阵。

4D光场L:(i,j,k,l)→L(i,j,k,l)中，若假设：角度分辨率为N_Ai×N_Aj，即i∈[0,N_Ai)，j∈[0,N_Aj)；空间分辨率为N_Sk×N_Sl，即k∈[0,N_Sk)，l∈[0,N_Sl)。则I^SEPI是(N_Sk×N_Aj)×N_Sl的二维矩阵，初始化为全0矩阵。

(2.2)对于4D光场第三维(k)的每一行(行序号：k^*)，计算其对应的EPI图像

并使用

更新I^SEPI的部分区域。

由4D光场数据计算生成第三维第k^*行对应的EPI图像的过程可以看作一个映射：

即固定4D光场中的第一和第三两个维度，变化另外两个维度所得到的二维切片图像，令i＝i^C，k＝k*。如图4所示，上方图像是由某场景光场数据生成的中心子孔径图像，下方图像是中心子孔径图像实线所在行对应的EPI图像。

然后，使用所得的

更新I^SEPI的部分区域，即

这里，I^SEPI((k*-1)×N_Aj:k*×N_Aj,0:N_Sl)表示I^SEPI中第(k*-1)×N_Aj行至第k*×N_Aj-1行，第0列至第N_Sl-1列的一块区域。

(2.3)对4D光场第三维的每一行进行第(2.2)步的操作，即可计算生成EPI合成图像I^SEPI。为了展示效果，图5截取EPI合成图像中的一块区域作为示例，该区域是图4中心子孔径图像上实线位置上下14行像素对应的EPI合成图像。

步骤3、构建光场神经网络模型LFRNN，接收I^SEPI、

输入，输出与中心子孔径图像

同分辨率的视差图D。如图6所示，光场神经网络模型LFRNN包括基于光场序列分析的局部深度估计模块和基于条件随机场模型的深度优化模块。

基于光场序列分析的局部深度估计模块包括滑窗处理层、序列特征提取子网络、特征图变形层。其中，滑窗处理层负责在EPI合成图像I^SEPI上滑动截取EPI块I^EPI-p，输入到序列特征提取子网络。滑窗大小为(N_Aj,16)，水平方向滑动步长为1，垂直方向滑动步长为N_Aj，滑窗超越I^SEPI时，补0填充。

序列特征提取子网络是为提取EPI块I^EPI-p的序列特征而专门设计的循环神经网络，包括序列化拆分处理、双向GRU层和全连接网络，如图7所示。序列化拆分处理是基于EPI图像上蕴含着深度信息的直线分布于多列像素之中的独特观察，而提出的EPI图像块序列化机制。具体地，将N_Aj×16的EIP图像块I^EPI-p的每列像素，看作一个列向量

其中，x、y分别表示EPI图像块I^EPI-p上像素的行、列坐标，

表示EPI图像块I^EPI-p上(x,y)处像素的灰度值。因此，一个N_Aj×16的EPI图像块I^EPI-p可以序列化为16个列向量G_y，0≤y≤15且y为整数。这些向量将依次作为后续双向GRU层每个时刻的输入。

双向GRU层由两个方向的GRU单元构成，每个方向GRU单元的维度为256，每个GRU单元设置为非序列工作模式，即接收16个时刻的向量输入，产生1个输出。双向GRU层共计产生512个输出。

接下来的全连接网络包含两个全连接层。第一个全连接层接收双向GRU层的512个输出，产生16个输出；该层全连接配置ReLU激活函数。第二个全连接层接收前一个全连接层的16个输出，输出1个视差值；该全连接层不配置激活函数。

特征图变形层的任务是将(N_Sk×N_Sl)个视差值序列，变形成N_Sk×N_Sl的矩阵，称为特征图，记为U。前面滑窗处理层按照设定的步长，在EPI合成图像I^SEPI上滑动截取了(N_Sk×N_Sl)个EPI块I^EPI-p，每个EPI块I^EPI-p在经序列特征提取子网络处理得到1个视差值，所有EPI块共产生了(N_Sk×N_Sl)个视差值，特征图变形层调用Reshape处理，将其变形为N_Sk×N_Sl矩阵，记为U。

基于条件随机场模型的深度优化模块，包括中心子孔径图像核参数提取和特征图迭代优化两部分，如图8所示。中心子孔径图像核参数提取部分主要功能是根据输入的中心子孔径图像计算滤波器核参数；特征图迭代优化部分是以条件随机场为理论基础，按照中心子孔径图像核参数提取部分所得滤波器核参数，将特征图迭代优化，得到视差图D。

中心子孔径图像核参数提取部分以中心子孔径图像

为输入，计算两个全局连接卷积核的参数：1)计算空间/色彩卷积核F₁，计算方法是

其中，p_i、p_j分别表示中心子孔径图像

上第i个、第j个像素的色彩信息，θ_α、θ_β是自定义的带宽半径(这里，都设定为1)。2)计算空间卷积核F₂，计算方法是

同样，p_i、p_j分别表示中心子孔径图像

上第i个、第j个像素的位置信息，θ_γ是自定义的带宽半径(这里设定为

)。

特征图迭代优化部分包括并行滤波、一元项添加、归一化因子计算、归一化等四个模块。

并行滤波模块通过两个通路分别对本次迭代输入μ^t-1进行滤波处理：第一个通路利用卷积核F₁对μ^t-1进行滤波，即

然后，对滤波结果

乘以权重参数θ₁，即

类似地，第二通路用卷积核F₂对μ^t-1进行滤波，即

然后，对滤波结果

乘以权重参数θ₂，即

第一次迭代时，μ^t-1初始化为特征图U；θ₁、θ₂做随机初始化，通过网络训练获得更新。两个通路的结果

逐元素相加得到并行滤波模块的输出

即

一元项添加模块是将特征图U与并行滤波模块的结果

相叠加，得

即

归一化因子计算模块内部也进行了并行滤波和一元项添加操作，得到归一化因子γ；不同的是，其数据处理的对象是全1矩阵J，而不是μ^t-1和特征图U。归一化因子计算模块的具体处理步骤是：

归一化模块是将一元项添加的模块的计算结果

对归一化因子γ按逐元素相除，得到本轮迭代的输出μ^t，即

特征图迭代优化部分是由四个模块构成的迭代过程，通常6次迭代即可取得理想的优化效果。最后一次迭代的输出即是优化的视差图D。

步骤4、训练步骤3所述的LFRNN，得到网络最优参数集P。其特征在于训练步骤分为两个阶段进行，两个阶段均采用平均绝对误差作为损失函数。第一个阶段仅训练基于光场序列分析的局部深度估计模块，得到该模块的最优参数集P1；第二阶段冻结基于光场序列分析的局部深度估计模块的最优参数集P1，并训练整个网络，从而更新基于条件随机场模型的深度优化模块的参数，最终得到LFRNN网络的最优参数集P。

训练LFRNN网络包括如下步骤：

(4.1)准备光场数据集，并将其划分为训练集、验证集和测试集。光场数据集需包含场景光场数据和场景视差真值，具体地，可以使用现行公开的HCI光场数据集，也可通过Blender仿真软件合成光场数据，还可以通过光场相机和测距设备采集光场数据和深度真值。按照5:3:2的比例，将光场数据集随机分成训练集、验证集和测试集。

(4.2)准备网络训练所需的输入数据和真值数据。输入数据包括中心子孔径图像和EPI合成图像，分别按照步骤1和步骤2由光场数据集计算产生；真值数据直接由光场数据集提供。

(4.3)将基于光场序列分析的局部深度估计模块作为独立的网络进行训练并验证。首先，输入为EPI合成图像，输出的特征图作为估计的视差值，数据集提供的真值数据作为视差真值，由此计算平均绝对误差，反向传播优化网络参数，训练后得到该模块的最优参数集P1。其中，超参数batch设置为64，超参数epoch设置为10000；前2000个epoch学习率为0.1×10^-3，后8000个epoch学习率为0.1×10^-4。其次，在验证集上，验证该网络模块的泛化能力。

(4.4)训练并验证LFRNN，得到参数最优参数集P。首先，将基于光场序列分析的局部深度估计模块作为预训练网络，加载其参数集P1，并冻结该模块的参数更新；然后，输入EPI合成图像、中心子孔径图像，输出估计的视差值，参考视差真值计算平均绝对误差，反向传播优化LFRNN网络中基于条件随机场模型的深度优化模块的参数，最终得到LFRNN的最优参数集P。其中，超参数batch设置为64，超参数epoch设置为3000，学习率设置为0.1×10^-4。最后，在验证集上测试整个网络的泛化能力。

LFRNN网络的测试与实用。对于步骤4所述测试集或者光场相机采集的4D光场数据，均可按照步骤1处理得到中心子孔径图像，按照步骤2处理得到EPI合成图像；然后，将所得中心子孔径图像和EPI合成图像输入到步骤3所述LFRNN网络；接着，加载步骤4所述的最优参数集P，进行前向计算，得到视差图D。

图9给出了本文方法与其他基于神经网络的深度估计方法的性能对比示例。以4幅典型场景为例，对比了EPINet、FusionNet和VommaNet等主流光场深度估计方法。第一列是场景的中心子孔径图像，第二至五列分别是本发明公开的方法、EPINet、FusionNet和VommaNet的处理结果；同一场景的处理结果排列在同一行；对比评价的指标是均方误差(MSE)，每个处理结果图像上方的数字代表了对应方法在该场景上取得的MSE值；每一行后附加一个灰度标尺，指示了处理结果在各像素位置的误差分布，颜色越浅误差越小，颜色越深误差越大。由图9可知，本发明公开的LFRNN深度估计方法在前两个示例场景中取得了最好的MSE指标，在后两个示例场景中虽然总体MSE指标不及VammaNet方法，但多数像素的深度估计结果更接近真值，视觉效果明显优于VammaNet的结果。

Claims

1.一种基于光场序列特征分析的光场深度估计方法，其特征在于，包括以下步骤：

(1)从4D光场数据中提取中心子孔径图像

其中(i^C,j^C)表示中心子孔径图像的视角坐标；

(2)由4D光场数据计算生成EPI合成图像I^SEPI；

(3)构建光场神经网络模型LFRNN，接收I^SEPI、

输入，输出与中心子孔径图像

2.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法，其特征在于，所述步骤(1)实现过程如下：

其中(i^C,j^C)表示中心子孔径图像的视角坐标。

3.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法，其特征在于，所述步骤(2)实现过程如下：

(21)根据输入4D光场的维度，初始化I^SEPI为全0矩阵：

并使用

更新I^SEPI的部分区域：

使用所得的

更新I^SEPI的部分区域，即

4.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法，其特征在于，步骤(3)所述基于光场序列分析的局部深度估计模块实包括滑窗处理层、序列特征提取子网络、特征图变形层；

其中，x、y分别表示EPI图像块I^EPI-p上像素的行、列坐标，

5.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法，其特征在于，步骤(3)所述基于条件随机场模型的深度优化模块包括中心子孔径图像核参数提取和特征图迭代优化两部分；中心子孔径图像核参数提取部分是根据输入的中心子孔径图像计算滤波器核参数；特征图迭代优化部分是以条件随机场为理论基础，按照中心子孔径图像核参数提取部分所得滤波器核参数，将特征图迭代优化，得到视差图D；

中心子孔径图像核参数提取部分以中心子孔径图像