CN115272435A - 一种基于光场序列特征分析的光场深度估计方法 - Google Patents

一种基于光场序列特征分析的光场深度估计方法 Download PDF

Info

Publication number
CN115272435A
CN115272435A CN202210721840.1A CN202210721840A CN115272435A CN 115272435 A CN115272435 A CN 115272435A CN 202210721840 A CN202210721840 A CN 202210721840A CN 115272435 A CN115272435 A CN 115272435A
Authority
CN
China
Prior art keywords
light field
epi
image
network
depth estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210721840.1A
Other languages
English (en)
Inventor
韩磊
杨庆
焦良葆
路绳方
郑胜男
施展
俞翔
黄晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202210721840.1A priority Critical patent/CN115272435A/zh
Publication of CN115272435A publication Critical patent/CN115272435A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于光场序列特征分析的光场深度估计方法,从双平面表示的4D光场数据中提取中心子孔径图像,并计算生成EPI合成图像;设计以中心子孔径图像和EPI合成图像为输入,视差图为输出的LFRNN网络,网络包括基于光场序列分析的局部深度估计模块和基于条件随机场模型的全局深度优化模块;分局部深度估计和全局优化两个阶段训练并评估LFRNN网络;测试与实用LFRNN网络,评价网络性能。本发明另辟蹊径地从序列数据的视角分析光场,设计了基于循环神经网络的深度特征提取子网络,显著提高了局部深度估计能力;对全局深度信息建模,设计的端到端优化网络,显著提升了深度估计准确度和鲁棒性。

Description

一种基于光场序列特征分析的光场深度估计方法
技术领域
本发明属于计算机视觉与人工智能技术领域,具体涉及一种基于光场序列特征分析的光场深度估计方法。
背景技术
微透镜光场相机已经进入消费类电子领域,具有较大工业应用和学术研究价值。微透镜光场相机为解决深度估计问题提供了新途径。一方面,光场成像不仅能够记录光线位置,而且能够记录光线的方向,为深度估计提供了几何依据;另一方面,微透镜光场相机具有单目多视角图像采集能力,方便了视觉***部署,为拓展深度估计应用奠定了物理基础。
基于微透镜光场相机的深度估计是近十年兴起的研究热点,大致分为传统深度估计和基于学***行四边形算子定位EPI图像上直线位置,进行深度估计。中国发明专利“一种基于光场的深度估计(ZL201510040975.1)”也利用结构张量作为初始深度估计的方法。基于结构算子的传统深度估计方法,可解释性强,但算子描述能力有限,深度估计的准确度存在提升瓶颈。
近年来,随着深度学***方向EPI块和垂直方向EPI块的信息,然后进行回归融合,得到深度图。中国发明专利申请“一种基于多模态信息的光场深度估计方法(公布号:CN 112767466 A)”利用卷积和空洞卷积对焦点堆栈和中心视图进行分析处理,进而预测场景深度。
深度估计理论建模、光场数据提取方法、神经网络设计等影响着深度估计效果。目前,基于学习的方法已经成为光场深度估计方法的主流,取得了长足进步;但深度估计的准确度,以及在遮挡、噪声等方面的鲁棒性均有待提高,尤其是光场数据提取和神经网络数据处理等技术环节亟待革新突破。为此,本发明公开了一种基于向量序列分析的光场图像处理方法,并设计了局部深度估计和全局优化为一体的端到端深度估计网络,运用该网络进行光场深度估计,准确度显著提高,为三维重建、三维缺陷检测等应用提供了良好支撑。
发明内容
发明目的:本发明提供一种基于光场序列特征分析的光场深度估计方法,能够估计高准确度深度结果,支撑光场三维重建、缺陷检测等应用。
技术方案:本发明所述的一种基于光场序列特征分析的光场深度估计方法,具体包括以下步骤:
(1)从4D光场数据中提取中心子孔径图像
Figure BDA0003711659600000021
其中(iC,jC)表示中心子孔径图像的视角坐标;
(2)由4D光场数据计算生成EPI合成图像ISEPI
(3)构建光场神经网络模型LFRNN,接收ISEPI
Figure BDA0003711659600000022
输入,输出与中心子孔径图像
Figure BDA0003711659600000023
同分辨率的视差图D;所述光场神经网络模型LFRNN包括基于光场序列分析的局部深度估计模块和基于条件随机场模型的深度优化模块;
(4)训练步骤(3)构建的光场神经网络模型LFRNN,得到网络最优参数集P:将训练分为两个阶段进行,两个阶段均采用平均绝对误差作为损失函数;第一个阶段仅训练基于光场序列分析的局部深度估计模块,得到该模块的最优参数集P1;第二阶段冻结基于光场序列分析的局部深度估计模块的最优参数集P1,并训练整个网络,更新基于条件随机场模型的深度优化模块的参数,得到LFRNN网络的最优参数集P。
进一步地,所述步骤(1)实现过程如下:
4D光场数据是由光场相机所采集光场图像的解码表示,记为L:(i,j,k,l)→L(i,j,k,l),其中,(i,j)表示微透镜图像的像素索引坐标或称视角坐标,(k,l)表示微透镜中心的索引坐标,i,j,k,l均为整数,L(i,j,k,l)表示(i,j)视角下通过(k,l)位置处的光线的辐射强度;抽取每个微透镜图像的中心像素,按微透镜位置索引排列得到二维图像,即
Figure BDA0003711659600000031
其中(iC,jC)表示中心子孔径图像的视角坐标。
进一步地,所述步骤(2)实现过程如下:
(21)根据输入4D光场的维度,初始化ISEPI为全0矩阵:
4D光场L:(i,j,k,l)→L(i,j,k,l)中,角度分辨率为NAi×NAj,即i∈[0,NAi),j∈[0,NAj);空间分辨率为NSk×NSl,即k∈[0,NSk),l∈[0,NSl);则ISEPI是(NSk×NAj)×NSl的二维矩阵,初始化为全0矩阵;
(22)对于4D光场第三维k的每一行,行序号为k*,计算其对应的EPI图像
Figure BDA0003711659600000032
并使用
Figure BDA0003711659600000033
更新ISEPI的部分区域:
由4D光场数据计算生成第三维第k*行对应的EPI图像的过程看作一个映射:
Figure BDA0003711659600000034
即固定4D光场中的第一和第三两个维度,变化另外两个维度所得到的二维切片图像,令i=iC,k=k*;
使用所得的
Figure BDA0003711659600000035
更新ISEPI的部分区域,即
Figure BDA0003711659600000036
这里,ISEPI((k*-1)×NAj:k*×NAj,0:NSl)表示ISEPI中第(k*-1)×NAj行至第k*×NAj-1行,第0列至第NSl-1列的一块区域;
(23)对4D光场第三维的每一行进行步骤(22)的操作,计算生成EPI合成图像ISEPI
进一步地,步骤(3)所述基于光场序列分析的局部深度估计模块实包括滑窗处理层、序列特征提取子网络、特征图变形层;
所述滑窗处理层负责在EPI合成图像ISEPI上滑动截取EPI块IEPI-p,输入到序列特征提取子网络;滑窗大小为(NAj,16),水平方向滑动步长为1,垂直方向滑动步长为NAj,滑窗超越ISEPI时,补0填充;
所述序列特征提取子网络为提取EPI块IEPI-p的序列特征的循环神经网络,包括序列化拆分处理、双向GRU层和全连接网络;其中序列化拆分处理是基于EPI图像上蕴含着深度信息的直线分布于多列像素之中的独特观察,将NAj×16的EIP图像块IEPI-p的每列像素,看作一个列向量
Figure BDA0003711659600000041
其中,x、y分别表示EPI图像块IEPI-p上像素的行、列坐标,
Figure BDA0003711659600000042
表示EPI图像块IEPI-p上(x,y)处像素的灰度值;一个NAj×16的EPI图像块IEPI-p可以序列化为16个列向量Gy,0≤y≤15且y为整数;向量Gy将依次作为后续双向GRU层每个时刻的输入;双向GRU层由两个方向的GRU单元构成,每个方向GRU单元的维度为256,每个GRU单元设置为非序列工作模式,接收16个时刻的向量输入,产生1个输出;双向GRU层共计产生512个输出;全连接网络包含两个全连接层;第一个全连接层接收双向GRU层的512个输出,产生16个输出;该层全连接配置ReLU激活函数;第二个全连接层接收前一个全连接层的16个输出,输出1个视差值;该全连接层不配置激活函数;
所述特征图变形层将(NSk×NSl)个视差值序列,变形成NSk×NSl的矩阵,称为特征图,记为U。
进一步地,步骤(3)所述基于条件随机场模型的深度优化模块包括中心子孔径图像核参数提取和特征图迭代优化两部分;中心子孔径图像核参数提取部分是根据输入的中心子孔径图像计算滤波器核参数;特征图迭代优化部分是以条件随机场为理论基础,按照中心子孔径图像核参数提取部分所得滤波器核参数,将特征图迭代优化,得到视差图D;
中心子孔径图像核参数提取部分以中心子孔径图像
Figure BDA0003711659600000043
为输入,计算空间和色彩卷积核F1和空间卷积核F2
Figure BDA0003711659600000044
Figure BDA0003711659600000051
其中,pi、pj分别表示中心子孔径图像
Figure BDA0003711659600000052
上第i个、第j个像素的位置信息,ci、cj分别表示中心子孔径图像
Figure BDA0003711659600000053
上第i个、第j个像素的色彩信息,θα、θβ、θγ为自定义的带宽半径;
特征图迭代优化部分包括并行滤波、一元项叠加、归一化因子计算、归一化四个模块;并行滤波模块通过两个通路分别对本次迭代输入μt-1进行滤波处理:第一个通路利用卷积核F1对μt-1进行滤波,即
Figure BDA0003711659600000054
然后,对滤波结果
Figure BDA0003711659600000055
乘以权重参数θ1,即
Figure BDA0003711659600000056
第二通路用卷积核F2对μt-1进行滤波,即
Figure BDA0003711659600000057
然后,对滤波结果
Figure BDA0003711659600000058
乘以权重参数θ2,即
Figure BDA0003711659600000059
第一次迭代时,μt-1初始化为特征图U;θ1、θ2做随机初始化,通过网络训练获得更新;两个通路的结果
Figure BDA00037116596000000510
逐元素相加得到并行滤波模块的输出
Figure BDA00037116596000000511
Figure BDA00037116596000000512
一元项添加模块是将特征图U与并行滤波模块的结果
Figure BDA00037116596000000513
相叠加,得
Figure BDA00037116596000000514
Figure BDA00037116596000000515
归一化因子计算模块内部也进行了并行滤波和一元项添加操作,得到归一化因子γ;其数据处理的对象是全1矩阵J,而不是μt-1和特征图U;归一化因子计算模块的具体处理步骤是:
Figure BDA00037116596000000516
Figure BDA00037116596000000517
归一化模块是将一元项添加的模块的计算结果
Figure BDA00037116596000000518
对归一化因子γ按逐元素相除,得到本轮迭代的输出μt,即
Figure BDA00037116596000000519
最后一次迭代的输出即是优化的视差图D。
有益效果:与现有技术相比,本发明的有益效果:1、本发明依据光场成像几何,另辟蹊径地从序列数据的视角分析光场,设计了基于循环神经网络的深度特征提取子网络,替代了传统卷积神经网络的特征提取方法,显著提高了局部深度估计能力;2、本发明依据条件随机场理论,对全局深度信息建模,设计了端到端的优化网络,显著提升了深度估计准确度和鲁棒性。
附图说明
图1为本发明的流程图;
图2为本发明中的4D光场双平面表示图;
图3为本发明中的计算生成EPI合成图像的流程图;
图4为本发明中的中心子孔径图像及EPI图像示例;
图5为本发明中的EPI合成图像示意图;
图6为本发明设计的LFRNN网络体系结构图;
图7为本发明设计的序列特征提取子网络的结构图;
图8为本发明设计的基于条件随机场模型的深度优化模块的结构图;
图9为本发明与现有方法的结果对比示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明公开的一种基于光场序列特征分析的光场深度估计方法,包括如下步骤:
步骤1、从4D光场数据中提取中心子孔径图像
Figure BDA0003711659600000061
其中(iC,jC)表示中心子孔径图像的视角坐标。
4D光场数据是由光场相机所采集光场图像的解码表示,如图2所示,通常用双平面法(2PP)表示光场数据,图中Π和Ω是平行平面,分别表示视角平面和位置平面,通过光线与双平面的交点表示一条光线,所有非平行于双平面的光线,形成了光场。通常将光场记为L:(i,j,k,l)→L(i,j,k,l),其中,(i,j)表示微透镜图像的像素索引坐标或称视角坐标,(k,l)表示微透镜中心的索引坐标,i,j,k,l均为整数,L(i,j,k,l)表示(i,j)视角下通过(k,l)位置处的光线的辐射强度。提取中心子孔径图像的方法是抽取每个微透镜图像的中心像素,按微透镜位置索引排列得到二维图像,即
Figure BDA0003711659600000062
其中(iC,jC)表示中心子孔径图像的视角坐标。
步骤2、由4D光场数据计算生成EPI合成图像ISEPI;如图3所示,包括如下步骤:
(2.1)根据输入4D光场的维度,初始化ISEPI为全0矩阵。
4D光场L:(i,j,k,l)→L(i,j,k,l)中,若假设:角度分辨率为NAi×NAj,即i∈[0,NAi),j∈[0,NAj);空间分辨率为NSk×NSl,即k∈[0,NSk),l∈[0,NSl)。则ISEPI是(NSk×NAj)×NSl的二维矩阵,初始化为全0矩阵。
(2.2)对于4D光场第三维(k)的每一行(行序号:k*),计算其对应的EPI图像
Figure BDA0003711659600000071
并使用
Figure BDA0003711659600000072
更新ISEPI的部分区域。
由4D光场数据计算生成第三维第k*行对应的EPI图像的过程可以看作一个映射:
Figure BDA0003711659600000073
即固定4D光场中的第一和第三两个维度,变化另外两个维度所得到的二维切片图像,令i=iC,k=k*。如图4所示,上方图像是由某场景光场数据生成的中心子孔径图像,下方图像是中心子孔径图像实线所在行对应的EPI图像。
然后,使用所得的
Figure BDA0003711659600000074
更新ISEPI的部分区域,即
Figure BDA0003711659600000075
这里,ISEPI((k*-1)×NAj:k*×NAj,0:NSl)表示ISEPI中第(k*-1)×NAj行至第k*×NAj-1行,第0列至第NSl-1列的一块区域。
(2.3)对4D光场第三维的每一行进行第(2.2)步的操作,即可计算生成EPI合成图像ISEPI。为了展示效果,图5截取EPI合成图像中的一块区域作为示例,该区域是图4中心子孔径图像上实线位置上下14行像素对应的EPI合成图像。
步骤3、构建光场神经网络模型LFRNN,接收ISEPI
Figure BDA0003711659600000076
输入,输出与中心子孔径图像
Figure BDA0003711659600000077
同分辨率的视差图D。如图6所示,光场神经网络模型LFRNN包括基于光场序列分析的局部深度估计模块和基于条件随机场模型的深度优化模块。
基于光场序列分析的局部深度估计模块包括滑窗处理层、序列特征提取子网络、特征图变形层。其中,滑窗处理层负责在EPI合成图像ISEPI上滑动截取EPI块IEPI-p,输入到序列特征提取子网络。滑窗大小为(NAj,16),水平方向滑动步长为1,垂直方向滑动步长为NAj,滑窗超越ISEPI时,补0填充。
序列特征提取子网络是为提取EPI块IEPI-p的序列特征而专门设计的循环神经网络,包括序列化拆分处理、双向GRU层和全连接网络,如图7所示。序列化拆分处理是基于EPI图像上蕴含着深度信息的直线分布于多列像素之中的独特观察,而提出的EPI图像块序列化机制。具体地,将NAj×16的EIP图像块IEPI-p的每列像素,看作一个列向量
Figure BDA0003711659600000081
其中,x、y分别表示EPI图像块IEPI-p上像素的行、列坐标,
Figure BDA0003711659600000082
表示EPI图像块IEPI-p上(x,y)处像素的灰度值。因此,一个NAj×16的EPI图像块IEPI-p可以序列化为16个列向量Gy,0≤y≤15且y为整数。这些向量将依次作为后续双向GRU层每个时刻的输入。
双向GRU层由两个方向的GRU单元构成,每个方向GRU单元的维度为256,每个GRU单元设置为非序列工作模式,即接收16个时刻的向量输入,产生1个输出。双向GRU层共计产生512个输出。
接下来的全连接网络包含两个全连接层。第一个全连接层接收双向GRU层的512个输出,产生16个输出;该层全连接配置ReLU激活函数。第二个全连接层接收前一个全连接层的16个输出,输出1个视差值;该全连接层不配置激活函数。
特征图变形层的任务是将(NSk×NSl)个视差值序列,变形成NSk×NSl的矩阵,称为特征图,记为U。前面滑窗处理层按照设定的步长,在EPI合成图像ISEPI上滑动截取了(NSk×NSl)个EPI块IEPI-p,每个EPI块IEPI-p在经序列特征提取子网络处理得到1个视差值,所有EPI块共产生了(NSk×NSl)个视差值,特征图变形层调用Reshape处理,将其变形为NSk×NSl矩阵,记为U。
基于条件随机场模型的深度优化模块,包括中心子孔径图像核参数提取和特征图迭代优化两部分,如图8所示。中心子孔径图像核参数提取部分主要功能是根据输入的中心子孔径图像计算滤波器核参数;特征图迭代优化部分是以条件随机场为理论基础,按照中心子孔径图像核参数提取部分所得滤波器核参数,将特征图迭代优化,得到视差图D。
中心子孔径图像核参数提取部分以中心子孔径图像
Figure BDA0003711659600000091
为输入,计算两个全局连接卷积核的参数:1)计算空间/色彩卷积核F1,计算方法是
Figure BDA0003711659600000092
其中,pi、pj分别表示中心子孔径图像
Figure BDA0003711659600000093
上第i个、第j个像素的位置信息,ci、cj分别表示中心子孔径图像
Figure BDA0003711659600000094
上第i个、第j个像素的色彩信息,θα、θβ是自定义的带宽半径(这里,都设定为1)。2)计算空间卷积核F2,计算方法是
Figure BDA0003711659600000095
同样,pi、pj分别表示中心子孔径图像
Figure BDA0003711659600000096
上第i个、第j个像素的位置信息,θγ是自定义的带宽半径(这里设定为
Figure BDA0003711659600000097
)。
特征图迭代优化部分包括并行滤波、一元项添加、归一化因子计算、归一化等四个模块。
并行滤波模块通过两个通路分别对本次迭代输入μt-1进行滤波处理:第一个通路利用卷积核F1对μt-1进行滤波,即
Figure BDA0003711659600000098
然后,对滤波结果
Figure BDA0003711659600000099
乘以权重参数θ1,即
Figure BDA00037116596000000910
类似地,第二通路用卷积核F2对μt-1进行滤波,即
Figure BDA00037116596000000911
然后,对滤波结果
Figure BDA00037116596000000912
乘以权重参数θ2,即
Figure BDA00037116596000000913
第一次迭代时,μt-1初始化为特征图U;θ1、θ2做随机初始化,通过网络训练获得更新。两个通路的结果
Figure BDA00037116596000000914
逐元素相加得到并行滤波模块的输出
Figure BDA00037116596000000915
Figure BDA00037116596000000916
一元项添加模块是将特征图U与并行滤波模块的结果
Figure BDA00037116596000000917
相叠加,得
Figure BDA00037116596000000918
Figure BDA00037116596000000919
归一化因子计算模块内部也进行了并行滤波和一元项添加操作,得到归一化因子γ;不同的是,其数据处理的对象是全1矩阵J,而不是μt-1和特征图U。归一化因子计算模块的具体处理步骤是:
Figure BDA0003711659600000101
Figure BDA0003711659600000102
归一化模块是将一元项添加的模块的计算结果
Figure BDA0003711659600000103
对归一化因子γ按逐元素相除,得到本轮迭代的输出μt,即
Figure BDA0003711659600000104
特征图迭代优化部分是由四个模块构成的迭代过程,通常6次迭代即可取得理想的优化效果。最后一次迭代的输出即是优化的视差图D。
步骤4、训练步骤3所述的LFRNN,得到网络最优参数集P。其特征在于训练步骤分为两个阶段进行,两个阶段均采用平均绝对误差作为损失函数。第一个阶段仅训练基于光场序列分析的局部深度估计模块,得到该模块的最优参数集P1;第二阶段冻结基于光场序列分析的局部深度估计模块的最优参数集P1,并训练整个网络,从而更新基于条件随机场模型的深度优化模块的参数,最终得到LFRNN网络的最优参数集P。
训练LFRNN网络包括如下步骤:
(4.1)准备光场数据集,并将其划分为训练集、验证集和测试集。光场数据集需包含场景光场数据和场景视差真值,具体地,可以使用现行公开的HCI光场数据集,也可通过Blender仿真软件合成光场数据,还可以通过光场相机和测距设备采集光场数据和深度真值。按照5:3:2的比例,将光场数据集随机分成训练集、验证集和测试集。
(4.2)准备网络训练所需的输入数据和真值数据。输入数据包括中心子孔径图像和EPI合成图像,分别按照步骤1和步骤2由光场数据集计算产生;真值数据直接由光场数据集提供。
(4.3)将基于光场序列分析的局部深度估计模块作为独立的网络进行训练并验证。首先,输入为EPI合成图像,输出的特征图作为估计的视差值,数据集提供的真值数据作为视差真值,由此计算平均绝对误差,反向传播优化网络参数,训练后得到该模块的最优参数集P1。其中,超参数batch设置为64,超参数epoch设置为10000;前2000个epoch学习率为0.1×10-3,后8000个epoch学习率为0.1×10-4。其次,在验证集上,验证该网络模块的泛化能力。
(4.4)训练并验证LFRNN,得到参数最优参数集P。首先,将基于光场序列分析的局部深度估计模块作为预训练网络,加载其参数集P1,并冻结该模块的参数更新;然后,输入EPI合成图像、中心子孔径图像,输出估计的视差值,参考视差真值计算平均绝对误差,反向传播优化LFRNN网络中基于条件随机场模型的深度优化模块的参数,最终得到LFRNN的最优参数集P。其中,超参数batch设置为64,超参数epoch设置为3000,学习率设置为0.1×10-4。最后,在验证集上测试整个网络的泛化能力。
LFRNN网络的测试与实用。对于步骤4所述测试集或者光场相机采集的4D光场数据,均可按照步骤1处理得到中心子孔径图像,按照步骤2处理得到EPI合成图像;然后,将所得中心子孔径图像和EPI合成图像输入到步骤3所述LFRNN网络;接着,加载步骤4所述的最优参数集P,进行前向计算,得到视差图D。
图9给出了本文方法与其他基于神经网络的深度估计方法的性能对比示例。以4幅典型场景为例,对比了EPINet、FusionNet和VommaNet等主流光场深度估计方法。第一列是场景的中心子孔径图像,第二至五列分别是本发明公开的方法、EPINet、FusionNet和VommaNet的处理结果;同一场景的处理结果排列在同一行;对比评价的指标是均方误差(MSE),每个处理结果图像上方的数字代表了对应方法在该场景上取得的MSE值;每一行后附加一个灰度标尺,指示了处理结果在各像素位置的误差分布,颜色越浅误差越小,颜色越深误差越大。由图9可知,本发明公开的LFRNN深度估计方法在前两个示例场景中取得了最好的MSE指标,在后两个示例场景中虽然总体MSE指标不及VammaNet方法,但多数像素的深度估计结果更接近真值,视觉效果明显优于VammaNet的结果。

Claims (5)

1.一种基于光场序列特征分析的光场深度估计方法,其特征在于,包括以下步骤:
(1)从4D光场数据中提取中心子孔径图像
Figure FDA0003711659590000011
其中(iC,jC)表示中心子孔径图像的视角坐标;
(2)由4D光场数据计算生成EPI合成图像ISEPI
(3)构建光场神经网络模型LFRNN,接收ISEPI
Figure FDA0003711659590000012
输入,输出与中心子孔径图像
Figure FDA0003711659590000013
同分辨率的视差图D;所述光场神经网络模型LFRNN包括基于光场序列分析的局部深度估计模块和基于条件随机场模型的深度优化模块;
(4)训练步骤(3)构建的光场神经网络模型LFRNN,得到网络最优参数集P:将训练分为两个阶段进行,两个阶段均采用平均绝对误差作为损失函数;第一个阶段仅训练基于光场序列分析的局部深度估计模块,得到该模块的最优参数集P1;第二阶段冻结基于光场序列分析的局部深度估计模块的最优参数集P1,并训练整个网络,更新基于条件随机场模型的深度优化模块的参数,得到LFRNN网络的最优参数集P。
2.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法,其特征在于,所述步骤(1)实现过程如下:
4D光场数据是由光场相机所采集光场图像的解码表示,记为L:(i,j,k,l)→L(i,j,k,l),其中,(i,j)表示微透镜图像的像素索引坐标或称视角坐标,(k,l)表示微透镜中心的索引坐标,i,j,k,l均为整数,L(i,j,k,l)表示(i,j)视角下通过(k,l)位置处的光线的辐射强度;抽取每个微透镜图像的中心像素,按微透镜位置索引排列得到二维图像,即
Figure FDA0003711659590000014
其中(iC,jC)表示中心子孔径图像的视角坐标。
3.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法,其特征在于,所述步骤(2)实现过程如下:
(21)根据输入4D光场的维度,初始化ISEPI为全0矩阵:
4D光场L:(i,j,k,l)→L(i,j,k,l)中,角度分辨率为NAi×NAj,即i∈[0,NAi),j∈[0,NAj);空间分辨率为NSk×NSl,即k∈[0,NSk),l∈[0,NSl);则ISEPI是(NSk×NAj)×NSl的二维矩阵,初始化为全0矩阵;
(22)对于4D光场第三维k的每一行,行序号为k*,计算其对应的EPI图像
Figure FDA0003711659590000021
并使用
Figure FDA0003711659590000022
更新ISEPI的部分区域:
由4D光场数据计算生成第三维第k*行对应的EPI图像的过程看作一个映射:
Figure FDA0003711659590000023
即固定4D光场中的第一和第三两个维度,变化另外两个维度所得到的二维切片图像,令i=iC,k=k*;
使用所得的
Figure FDA0003711659590000024
更新ISEPI的部分区域,即
Figure FDA0003711659590000025
这里,ISEPI((k*-1)×NAj:k*×NAj,0:NSl)表示ISEPI中第(k*-1)×NAj行至第k*×NAj-1行,第0列至第NSl-1列的一块区域;
(23)对4D光场第三维的每一行进行步骤(22)的操作,计算生成EPI合成图像ISEPI
4.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法,其特征在于,步骤(3)所述基于光场序列分析的局部深度估计模块实包括滑窗处理层、序列特征提取子网络、特征图变形层;
所述滑窗处理层负责在EPI合成图像ISEPI上滑动截取EPI块IEPI-p,输入到序列特征提取子网络;滑窗大小为(NAj,16),水平方向滑动步长为1,垂直方向滑动步长为NAj,滑窗超越ISEPI时,补0填充;
所述序列特征提取子网络为提取EPI块IEPI-p的序列特征的循环神经网络,包括序列化拆分处理、双向GRU层和全连接网络;其中序列化拆分处理是基于EPI图像上蕴含着深度信息的直线分布于多列像素之中的独特观察,将NAj×16的EIP图像块IEPI-p的每列像素,看作一个列向量
Figure FDA0003711659590000026
其中,x、y分别表示EPI图像块IEPI-p上像素的行、列坐标,
Figure FDA0003711659590000027
表示EPI图像块IEPI-p上(x,y)处像素的灰度值;一个NAj×16的EPI图像块IEPI-p可以序列化为16个列向量Gy,0≤y≤15且y为整数;向量Gy将依次作为后续双向GRU层每个时刻的输入;双向GRU层由两个方向的GRU单元构成,每个方向GRU单元的维度为256,每个GRU单元设置为非序列工作模式,接收16个时刻的向量输入,产生1个输出;双向GRU层共计产生512个输出;全连接网络包含两个全连接层;第一个全连接层接收双向GRU层的512个输出,产生16个输出;该层全连接配置ReLU激活函数;第二个全连接层接收前一个全连接层的16个输出,输出1个视差值;该全连接层不配置激活函数;
所述特征图变形层将(NSk×NSl)个视差值序列,变形成NSk×NSl的矩阵,称为特征图,记为U。
5.根据权利要求1所述的一种基于光场序列特征分析的光场深度估计方法,其特征在于,步骤(3)所述基于条件随机场模型的深度优化模块包括中心子孔径图像核参数提取和特征图迭代优化两部分;中心子孔径图像核参数提取部分是根据输入的中心子孔径图像计算滤波器核参数;特征图迭代优化部分是以条件随机场为理论基础,按照中心子孔径图像核参数提取部分所得滤波器核参数,将特征图迭代优化,得到视差图D;
中心子孔径图像核参数提取部分以中心子孔径图像
Figure FDA0003711659590000031
为输入,计算空间和色彩卷积核F1和空间卷积核F2
Figure FDA0003711659590000032
Figure FDA0003711659590000033
其中,pi、pj分别表示中心子孔径图像
Figure FDA0003711659590000034
上第i个、第j个像素的位置信息,ci、cj分别表示中心子孔径图像
Figure FDA0003711659590000035
上第i个、第j个像素的色彩信息,θα、θβ、θγ为自定义的带宽半径;
特征图迭代优化部分包括并行滤波、一元项叠加、归一化因子计算、归一化四个模块;并行滤波模块通过两个通路分别对本次迭代输入μt-1进行滤波处理:第一个通路利用卷积核F1对μt-1进行滤波,即
Figure FDA0003711659590000036
然后,对滤波结果
Figure FDA0003711659590000037
乘以权重参数θ1,即
Figure FDA0003711659590000038
第二通路用卷积核F2对μt-1进行滤波,即
Figure FDA0003711659590000041
然后,对滤波结果
Figure FDA0003711659590000042
乘以权重参数θ2,即
Figure FDA0003711659590000043
第一次迭代时,μt-1初始化为特征图U;θ1、θ2做随机初始化,通过网络训练获得更新;两个通路的结果
Figure FDA0003711659590000044
逐元素相加得到并行滤波模块的输出
Figure FDA0003711659590000045
Figure FDA0003711659590000046
一元项添加模块是将特征图U与并行滤波模块的结果
Figure FDA0003711659590000047
相叠加,得
Figure FDA0003711659590000048
Figure FDA0003711659590000049
归一化因子计算模块内部也进行了并行滤波和一元项添加操作,得到归一化因子γ;其数据处理的对象是全1矩阵J,而不是μt-1和特征图U;归一化因子计算模块的具体处理步骤是:
Figure FDA00037116595900000410
Figure FDA00037116595900000411
归一化模块是将一元项添加的模块的计算结果
Figure FDA00037116595900000412
对归一化因子γ按逐元素相除,得到本轮迭代的输出μt,即
Figure FDA00037116595900000413
最后一次迭代的输出即是优化的视差图D。
CN202210721840.1A 2022-06-24 2022-06-24 一种基于光场序列特征分析的光场深度估计方法 Pending CN115272435A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210721840.1A CN115272435A (zh) 2022-06-24 2022-06-24 一种基于光场序列特征分析的光场深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210721840.1A CN115272435A (zh) 2022-06-24 2022-06-24 一种基于光场序列特征分析的光场深度估计方法

Publications (1)

Publication Number Publication Date
CN115272435A true CN115272435A (zh) 2022-11-01

Family

ID=83762435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210721840.1A Pending CN115272435A (zh) 2022-06-24 2022-06-24 一种基于光场序列特征分析的光场深度估计方法

Country Status (1)

Country Link
CN (1) CN115272435A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法

Similar Documents

Publication Publication Date Title
CN110033003B (zh) 图像分割方法和图像处理装置
Wu et al. Learning sheared EPI structure for light field reconstruction
CN106846463B (zh) 基于深度学习神经网络的显微图像三维重建方法及***
CN108846473B (zh) 基于方向和尺度自适应卷积神经网络的光场深度估计方法
CN110009691B (zh) 基于双目立体视觉匹配的视差图像生成方法及***
CN105981050B (zh) 用于从人脸图像的数据提取人脸特征的方法和***
CN111145131A (zh) 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法
CN113962858B (zh) 一种多视角深度获取方法
CN111819568A (zh) 人脸旋转图像的生成方法及装置
JP7166459B2 (ja) カメラ自己校正ネットワーク
CN116993826A (zh) 一种基于局部空间聚合神经辐射场的场景新视图生成方法
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN111260707A (zh) 一种基于光场epi图像的深度估计方法
CN112541972B (zh) 一种视点图像处理方法及相关设备
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计***
CN115272435A (zh) 一种基于光场序列特征分析的光场深度估计方法
Chen et al. PDWN: Pyramid deformable warping network for video interpolation
KR20220014678A (ko) 영상의 깊이를 추정하는 방법 및 장치
Wang et al. Occlusion-aware light field depth estimation with view attention
Huang et al. ES-Net: An efficient stereo matching network
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
Hou et al. Joint learning of image deblurring and depth estimation through adversarial multi-task network
Bazrafkan et al. Deep neural network assisted iterative reconstruction method for low dose ct
Dao et al. FastMDE: A fast CNN architecture for monocular depth estimation at high resolution
CN116863285A (zh) 多尺度生成对抗网络的红外与可见光图像融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination