CN112116646B - 一种基于深度卷积神经网络的光场图像深度估计方法 - Google Patents
一种基于深度卷积神经网络的光场图像深度估计方法 Download PDFInfo
- Publication number
- CN112116646B CN112116646B CN202011007828.1A CN202011007828A CN112116646B CN 112116646 B CN112116646 B CN 112116646B CN 202011007828 A CN202011007828 A CN 202011007828A CN 112116646 B CN112116646 B CN 112116646B
- Authority
- CN
- China
- Prior art keywords
- image
- light field
- epi
- layer
- stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 239000002131 composite material Substances 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/557—Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络的光场图像深度估计方法,由场景的4D光场数据提取中心子孔径图像;由4D光场数据计算生成水平EPI合成图像和垂直EPI合成图像;设计以中心子孔径图像、水平EPI合成图像和垂直EPI合成图像为输入,视差图为输出的深度卷积神经网络;以平均绝对误差为损失函数,训练所涉及的深度卷积神经网络;利用训练成功的深度卷积神经网络,接收由给定场景4D光场数据生成的中心子孔径图像、水平EPI合成图像、垂直EPI合成图像,计算得到场景的视差图。本发明所设计的深度卷积神经网络采用了多流输入、跳层连接体系结构,有利于多源输入信息、浅层深层特征信息融合,提高了深度估计的鲁棒性。
Description
技术领域
本发明属于计算机视觉与人工智能技术领域,具体涉及是一种基于深度卷积神经网络的光场深度估计方法。
背景技术
A.Gershun等人在20世纪上半叶已经提出了光场概念,用以描述光在三维空间中的辐射特性,然而,光场成像技术相对滞后于理论概念的发展。陆续出现了相机阵列、相机位移架、编码光圈、微透镜阵列等光场成像设备,其中,微透镜光场相机已经进入消费类电子领域,具有较大工业应用和学术研究价值。
深度估计即确定场景中物点与成像***之间的距离,是计算机视觉中的基本问题之一,广泛应用于三维重建、视觉导航、工业检测等领域。光场成像因其复杂的成像几何和丰富的图像数据,为解决深度估计问题提供了崭新途径。前期,一些学者根据光场成像几何关系,建立图像中深度信息的特征描述,进而估计场景深度。随着深度学习技术的兴起,不少学者利用深度学习技术提取特征并估计深度。
有的研究虽基于光场的多视角信息,但未考虑极线几何;有的直接运用了极线图块的局部纹理特性,但未考虑场景全局分布。现有研究公开的方法运用了极线几何约束下EPI图像特性,但较少直接运用EPI图像纹理特性或仅仅运用了局部纹理特性,由此设计的深度神经网络在光场图像深度估计方面的性能有待提高,尤其深度估计精度、遮挡边沿细节处理方面仍可进一步提高,这些指标在三维重建等应用中起到关键作用。为此,设计深度估计精度高、边缘处理清晰、计算时间少的光场深度估计方法具有应用意义。
当前,基于深度学习的光场深度估计方法多采用卷积神经网络作为特征提取的工具,在网络体系结构、数据增强等当面提出创新方法,但仍存在对EPI纹理结构利用不充分,特征提取能力受限,对遮挡和噪声处理能力不足的现象。为此,本发明设计了以富纹理拼接EPI图像和光场中心子孔径图像为输入,融合多流和短接体系结构为一体的轻量级深度卷积神经网络;运用该网络进行深度估计,具有准确度高、边界处理清晰、计算速度快等优点。
发明内容
发明目的:本发明提供一种基于深度卷积神经网络的光场深度估计方法,能够在适当的计算平台上实时地由光场数据计算得到高准确度的深度估计结果。
技术方案:本发明所述的一种基于深度卷积神经网络的光场深度估计方法,具体包括以下步骤:
(1)从4D光场数据中提取中心子孔径图像其中(iC,jC)表示中心子孔径图像的视角坐标;
(2)由4D光场数据分别计算生成水平EPI合成图像和垂直EPI合成图像/>
(3)构建深度卷积神经网络的网络模型DCNET,接收三个输入流,输出与中心子孔径图像/>同分辨率的视差图D;
(4)以MAE为损失函数,训练步骤(3)所述的DCNET,得到网络最优参数集P;
(5)对场景的4D光场数据执行第(1)步和第(2)步的处理后,输入至步骤(4)训练好的网络,计算输出该场景的视差图。
进一步地,步骤(1)所述的提取中心子孔径图像是抽取每个微透镜图像的中心像素,按微透镜位置索引排列得到二维图像,即
进一步地,所述步骤(2)包括以下步骤:
(21)对于中心子孔径图像中的每一行,k*为行序号,计算其对应的EPI图像/>由4D光场数据生成中心子孔径图像中第k*行像素对应的EPI图像的过程可以看作一个映射:/>即固定4D光场中的i和k两个维度,变化另外两个维度所得到的二维切片图像,令i=i*=iC,k=k*;
(22)将EPI图像集合,按照行号从上到下依次拼接起来,得到水平EPI合成图像假设4D光场在i、j、k、l四个维度上的大小分别为Ni、Nj、Nk、Nl,则中心子孔径图像中第k*行像素对应的EPI图像/>的大小为(Nj×Nl);为/>预留(Nj×Nk)行、Nl列的存储空间,设置初值为0;对于步骤(21)所得的EPI图像集合中的每一幅图像/>根据行号将/>逐像素赋给表示中的第(k*-1)×Nj行至第k*×Nj行,第0列至第(Nj-1)列的一块区域;
(23)对于中心子孔径图像中的每一列,l*为列序号,计算其对应的EPI图像/>由4D光场数据生成中心子孔径图像中第l*列像素对应的EPI图像的过程可以看作一个映射:/>即固定4D光场中的j和l两个维度,变化另外两个维度所得到的二维切片图像,令j=j*=jC,l=l*;
(24)将步骤(23)所得的EPI图像集合,按照列号从左到右依次拼接起来,得到垂直EPI合成图像假设4D光场在i、j、k、l四个维度上的大小分别为Ni、Nj、Nk、Nl,则中心子孔径图像中第l*列像素对应的EPI图像/>的大小为(Nk×Ni);为/>预留(Nk)行、(Nl×Ni)列的存储空间,设置初值为0;对于步骤(23)所得的EPI图像集合中的每一幅图像/>根据行号将/>逐像素赋给 表示中的第0行至第(Nk-1)行,第(l*-1)×Nj列至第l*×Nj列的一块区域。
进一步地,步骤(3)所述的深度卷积神经网络的网络模型DCNET,包括多流输入、编码、解码、跳层连接、视差图输出模块;所述编码模块用于提取输入图像的特征,由A类单元和B类单元构成,A类单元的基本结构是“卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”,B类单元的基本结构是“卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”;所述编码模块的单元序列分为两个阶段:三个流单独编码阶段和综合编码阶段,其中,EPIh流和EPIv流的单独编码阶段包含4个A类单元,而CV流的单独编码阶段包含3个A类单元;随后,将三个流的编码结果级联起来,进行综合编码,综合编码阶段包含3个B类单元;所述解码模块用于逐步恢复高分辨率输出,由6个C类基本单元构成,C类单元的基本结构是“反卷积层+卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层”;所述跳层连接有CC1、CC2、CC3三个连接,CC1将EPIh流的第1个A类单元输出特征图、中心子孔径图像、EPIv流的第1个A类单元输出特征图级联到解码模块的第6个C类单元的反卷积层之后,CC2将EPIh流的第2个A类单元输出特征图、CV流的第1个A类单元输出特征图、EPIv流的第2个A类单元输出特征图级联到解码模块的第5个C类单元的反卷积层之后,CC3将EPIh流的第3个A类单元输出特征图、CV流的第2个A类单元输出特征图、EPIv流的第3个A类单元输出特征图级联到解码模块的第4个C类单元的反卷积层之后;所述输出模块将多通道特征图回归于单通道视差图,由1×1卷积层实现与中心子孔径图像等分辨率的视差图输出。
进一步地,所述步骤(4)包括以下步骤:
(41)MAE损失函数是指平均绝对误差损失,其计算方法是:
其中,表示视差预测值,yi表示视差真值,n表示损失计算时样本点总数;
(42)设置DCNET网络的超参数:初始化卷积神经网络学***均绝对误差MAE,设置训练批次大小16,迭代次数为200000;
(43)获取包含场景光场数据和场景视差真值的光场数据集,并将其划分为训练集和验证集;
(44)基于光场数据训练集,逐批生成训练所需的3流输入数据,使用RMSProp算法迭代训练;
(45)在光场数据验证集上进行测试评价,对于验证集内光场数据,利用训练后的DCNET网络输出预测的视差图,利用MSE和BadPix两个指标评价预测结果和真值之间差异;
(46)经步骤(45)评价,取得优异性能的网络参数集合P作为最优参数。
有益效果:与现有技术相比,本发明的有益效果:(1)本发明将光场EPI图像逐行或逐列拼接起来,分别得到水平EPI合成图像和垂直EPI合成图像,联合中心子孔径图像作为所设计深度卷积神经网络的多流输入,拼接形成的EPI合成图像具有更丰富的纹理信息,有助于卷积神经网络进行特征提取,提高了深度估计准确度;(2)所设计的深度卷积神经网络采用了多流输入、跳层连接体系结构,有利于多源输入信息、浅层深层特征信息融合,提高了深度估计的鲁棒性。
附图说明
图1为本发明的流程图;
图2为本发明中的中心子孔径图像示例示意图;
图3为本发明中的水平EPI合成图像示例示意图;
图4为本发明中的生成水平EPI合成图像的流程图;
图5为本发明中的垂直EPI合成图像示例示意图;
图6为本发明设计的深度卷积神经网络DCNET结构图;
图7为本发明中训练DCNET网络的流程图;
图8为本发明中在EPI图像上选择像素的示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明公开的一种基于深度卷积神经网络的光场图像深度估计方法,包括如下步骤:
步骤1:从4D光场数据中提取中心子孔径图像其中(iC,jC)表示中心子孔径图像的视角坐标。
4D光场数据是由光场相机所采集光场图像的解码表示,记为L:(i,j,k,l)→L(i,j,k,l),其中,(i,j)表示微透镜图像的像素索引坐标,(k,l)表示微透镜中心的索引坐标,L(i,j,k,l)表示通过微透镜中心(k,l)和微透镜图像像素(i,j)的光线的辐射强度;提取中心子孔径图像的方法是抽取每个微透镜图像的中心像素,按微透镜位置索引排列得到二维图像,即图2给出了一幅中心子孔径图像的示例。
步骤2:由4D光场数据分别计算生成水平EPI合成图像和垂直EPI合成图像
图3给出了步骤2所述的水平EPI合成图像示例。由4D光场数据计算生成水平EPI合成图像的特征在于,包括如下步骤,如图4所示:
(1)对于中心子孔径图像中的每一行(行序号:k*),计算其对应的EPI图像
具体地,由4D光场数据生成中心子孔径图像中第k*行像素对应的EPI图像的过程可以看作一个映射:即固定4D光场中的i和k两个维度,变化另外两个维度所得到的二维切片图像,令i=i*=iC,k=k*。
(2)将步骤(1)所得的EPI图像集合,按照行号(k*)从上到下依次拼接起来,得到水平EPI合成图像
具体地,假设4D光场在i、j、k、l四个维度上的大小分别为Ni、Nj、Nk、Nl,则中心子孔径图像中第k*行像素对应的EPI图像的大小为(Nj×Nl)。首先为/>预留(Nj×Nk)行、Nl列的存储空间,设置初值为0;然后,对于步骤(2A1)所得的EPI图像集合中的每一幅图像根据行号(k*)将/>逐像素赋给/>这里, 表示/>中的第(k*-1)×Nj行至第k*×Nj行,第0列至第(Nj-1)列的一块区域。
图5给出了步骤2所述的垂直EPI合成图像示例。由4D光场数据计算生成垂直EPI合成图像的特征在于,包括如下步骤:
(1)对于中心子孔径图像中的每一列(列序号:l*),计算其对应的EPI图像
具体地,由4D光场数据生成中心子孔径图像中第l*列像素对应的EPI图像的过程可以看作一个映射:即固定4D光场中的j和l两个维度,变化另外两个维度所得到的二维切片图像,令j=j*=jC,l=l*。
(2)将所得的EPI图像集合,按照列号(l*)从左到右依次拼接起来,得到垂直EPI合成图像
具体地,假设4D光场在i、j、k、l四个维度上的大小分别为Ni、Nj、Nk、Nl,则中心子孔径图像中第l*列像素对应的EPI图像的大小为(Nk×Ni)。首先为/>预留(Nk)行、(Nl×Ni)列的存储空间,设置初值为0;然后,对于步骤(2B1)所得的EPI图像集合中的每一幅图像根据行号(l*)将/>逐像素赋给/>这里, 表示/>中的第0行至第(Nk-1)行,第(l*-1)×Nj列至第l*×Nj列的一块区域。
步骤3:构建深度卷积神经网络的网络模型DCNET,接收三个输入流,最终输出与中心子孔径图像/>同分辨率的视差图D。
:深度卷积神经网络的网络模型DCNET,如图6所示,包括多流输入、编码、解码、跳层连接、视差图输出等主要模块。DCNET网络采用多流结构体系结构的目的是充分利用多角度EPI合成图像的丰富纹理以及中心子孔径图像的像素位置邻域关系,该网络使用EPIh流、CV流和EPIv流分别接收水平EPI合成图像中心子孔径图像/>垂直EPI合成图像编码模块用于提取输入图像的特征,由多个A类单元和B类单元构成,A类单元的基本结构是“卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”,B类单元的基本结构是“卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”;编码模块的单元序列分为两个阶段:三个流单独编码阶段和综合编码阶段,其中,EPIh流和EPIv流的单独编码阶段包含4个A类单元,而CV流的单独编码阶段包含3个A类单元;随后,将三个流的编码结果级联起来,进行综合编码,综合编码阶段包含3个B类单元。解码模块用于逐步恢复高分辨率输出,由6个C类基本单元构成,C类单元的基本结构是“反卷积层+卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层”。跳层连接有CC1、CC2、CC3三个连接,CC1将EPIh流的第1个A类单元输出特征图、中心子孔径图像、EPIv流的第1个A类单元输出特征图级联到解码模块的第6个C类单元的反卷积层之后,CC2将EPIh流的第2个A类单元输出特征图、CV流的第1个A类单元输出特征图、EPIv流的第2个A类单元输出特征图级联到解码模块的第5个C类单元的反卷积层之后,CC3将EPIh流的第3个A类单元输出特征图、CV流的第2个A类单元输出特征图、EPIv流的第3个A类单元输出特征图级联到解码模块的第4个C类单元的反卷积层之后。输出模块将多通道特征图回归于单通道视差图,由1×1卷积层实现与中心子孔径图像等分辨率的视差图输出。
EPIh流的第1个A类单元中,所有卷积核为3×3,滑动步长为1,滤波器个数为10;最后的池化层的窗口尺寸为(1,9),滑动步长也设置为与窗口尺寸相同的默认值。EPIv流的第1个A类单元中,所有卷积核为滑动步长为1,滤波器个数为10;最后的池化层的窗口尺寸为(9,1),滑动步长也设置为与窗口尺寸相同的默认值。EPIh流与EPIv流的第2、3、4个A类单元以及CV流的第1、2、3个A类单元的参数设置相同,即卷积核均为2×2,滑动步长为1,滤波器个数分别为20、40、80,池化层的窗口尺寸为(2,2),步长也为(2,2)。
编码模块的3个B类单元中,所有卷积核均为2×2,滑动步长为1,单元内各卷积层滤波器个数相同,不同单元滤波器个数不同,由前到后,3个B类单元卷积层滤波器个数分别是160、320、640。3个B类单元的池化层窗口尺寸均为(2,2),步长也为(2,2)。
解码模块的6个C类单元中,所有反卷积层和卷积层的核均为(2,2),滑动步长也设置为(2,2),同一单元内的所有反卷积层以及卷积层所使用的滤波器个数相同,不同单元滤波器个数不同,6个C类单元所采用的滤波器个数分别是320、160、80、40、20、10.
步骤4:以MAE为损失函数,训练步骤3所述的DCNET,得到网络最优参数集P。
MAE损失函数是指平均绝对误差损失,其计算方法是:
其中,表示视差预测值,yi表示视差真值,n表示损失计算时样本点总数。
训练DCNET网络过程如图7所示,包括如下步骤:
(1)设置DCNET网络的超参数:初始化卷积神经网络学***均绝对误差MAE,设置训练批次大小16,迭代次数为200000。
(2)准备光场数据集,并将其划分为训练集和验证集。具体地,光场数据集需包含场景光场数据和场景视差真值,可以通过两种途径获得:一是通过仿真软件设置深度真值,并绘制光场;二是通过光场相机采集光场数据,并通过激光测距设备获取深度值,进而根据相机参数转化为视差真值。将构建的光场数据集,按照6:4的比例,随机分成训练集和验证集两部分。
(3)基于光场数据训练集,逐批生成训练所需的3流输入数据,使用RMSProp算法迭代训练。如图8所示,包括如下步骤:
1)总整幅场景中随机选择64×64的场景区块,以节约训练过程中的内存消耗。
2)从原始状态、翻转90°、翻转180°、翻转270°四种增强模式中随机选择一种。
3)根据步骤2)所选的增强模式,生成一批增强数据。假设所选是原始状态模式,则根据步骤1和步骤2的方法生成场景区块的水平EPI合成图像、中心子孔径图像、垂直EPI合成图像。假设所选增强模式是翻转90°,那么将原始区块垂直EPI合成图像逆时针旋转90°作为增强区块的水平EPI合成图像,将原始区块中心子孔径图像逆时针旋转90°作为增强区块的中心子孔径图像,将原始区块的水平EPI合成图像顺时针旋转90°作为增强区块的垂直EPI合成图像。假设所选增强模式是翻转180°,那么将原始区块水平EPI合成图像逆时针旋转180°作为增强区块的水平EPI合成图像,将原始区块中心子孔径图像逆时针旋转180°作为增强区块的中心子孔径图像,将原始区块垂直EPI合成图像逆时针旋转180°作为增强区块的垂直EPI合成图像。假设所选增强模式是翻转270°,那么将原始区块的垂直EPI合成图像顺时针旋转90°作为增强区块的水平EPI合成图像,将原始区块的中心子孔径图像逆时针旋转270°作为增强区块的中心子孔径图像,将原始区块的水平EPI合成图像顺时针旋转90°作为增强区块的垂直EPI合成图像。
4)利用RMSProp算法,每个批次更新一次参数。
5)如果达到训练迭代次数门限值,则结束训练;否则,重复1)步骤至4)步骤。
(4)评价训练效果。在光场数据验证集上进行测试评价,对于验证集内光场数据,按照步骤1和步骤2中方法生成网络DCNET所需的输入图像,利用训练后的DCNET网络输出预测的视差图。利用MSE和BadPix两个指标评价预测结果和真值之间差异。MSE指标是均方误差值,计算方法为:
其中,M表示参与评价的像素掩模集合,x是M中元素,d(x)表示像素x对应的预测视差,gt(x)表示像素x对应的视差真值,|M|表示M中元素个数。
BadPix是评价预测与真实值偏差达到门限值的像素比例,计算方法为:
同样,M表示参与评价的像素掩模集合,x是M中元素,d(x)表示像素x对应的预测视差,gt(x)表示像素x对应的视差真值,|M|表示M中元素个数;而这里的t表示一个预设的门限值,通常设置为0.01、0.03、0.07。
(5)经步骤(4)评价,取得优异性能的网络参数集合P作为最优参数。
步骤5:对场景的4D光场数据步骤1和步骤2的处理后,输入至步骤4训练好的网络,得到场景的视差图。
4D光场数据是指利用光场相机拍摄场景原始图像,经过解码后得到4D光场数据,记为L:(i,j,k,l)→L(i,j,k,l),其中,(i,j)表示微透镜图像的像素索引坐标,(k,l)表示微透镜中心的索引坐标,L(i,j,k,l)表示通过微透镜中心(k,l)和微透镜图像像素(i,j)的光线的辐射强度。
Claims (4)
1.一种基于深度卷积神经网络的光场图像深度估计方法,其特征在于,包括以下步骤:
(1)从4D光场数据中提取中心子孔径图像其中(iC,jC)表示中心子孔径图像的视角坐标;
(2)由4D光场数据分别计算生成水平EPI合成图像和垂直EPI合成图像/>
(3)构建深度卷积神经网络的网络模型DCNET,接收三个输入流,输出与中心子孔径图像/>同分辨率的视差图D;
(4)以MAE为损失函数,训练步骤(3)所述的DCNET,得到网络最优参数集P;
(5)对场景的4D光场数据执行第(1)步和第(2)步的处理后,输入至步骤(4)训练好的网络,计算输出该场景的视差图;
所述步骤(2)包括以下步骤:
(21)对于中心子孔径图像中的每一行,k*为行序号,计算其对应的EPI图像/>由4D光场数据生成中心子孔径图像中第k*行像素对应的EPI图像的过程可以看作一个映射:/>即固定4D光场中的i和k两个维度,变化另外两个维度所得到的二维切片图像,令i=i*=iC,k=k*;
(22)将EPI图像集合,按照行号从上到下依次拼接起来,得到水平EPI合成图像假设4D光场在i、j、k、l四个维度上的大小分别为Ni、Nj、Nk、Nl,则中心子孔径图像中第k*行像素对应的EPI图像/>的大小为(Nj×Nl);为/>预留(Nj×Nk)行、Nl列的存储空间,设置初值为0;对于步骤(21)所得的EPI图像集合中的每一幅图像/>根据行号将/>逐像素赋给 表示中的第(k*-1)×Nj行至第k*×Nj行,第0列至第(Nj-1)列的一块区域;
(23)对于中心子孔径图像中的每一列,l*为列序号,计算其对应的EPI图像/>由4D光场数据生成中心子孔径图像中第l*列像素对应的EPI图像的过程可以看作一个映射:/>即固定4D光场中的j和l两个维度,变化另外两个维度所得到的二维切片图像,令j=j*=jC,l=l*;(24)将步骤(23)所得的EPI图像集合,按照列号从左到右依次拼接起来,得到垂直EPI合成图像/>假设4D光场在i、j、k、l四个维度上的大小分别为Ni、Nj、Nk、Nl,则中心子孔径图像中第l*列像素对应的EPI图像/>的大小为(Nk×Ni);为/>预留(Nk)行、(Nl×Ni)列的存储空间,设置初值为0;对于步骤(23)所得的EPI图像集合中的每一幅图像/>根据行号将/>逐像素赋给 表示/>中的第0行至第(Nk-1)行,第(l*-1)×Nj列至第l*×Nj列的一块区域。
2.根据权利要求1所述的基于深度卷积神经网络的光场图像深度估计方法,其特征在于,步骤(1)所述的提取中心子孔径图像是抽取每个微透镜图像的中心像素,按微透镜位置索引排列得到二维图像,即/>
3.根据权利要求1所述的基于深度卷积神经网络的光场图像深度估计方法,其特征在于,步骤(3)所述的深度卷积神经网络的网络模型DCNET,包括多流输入、编码、解码、跳层连接、视差图输出模块;所述编码模块用于提取输入图像的特征,由A类单元和B类单元构成,A类单元的基本结构是“卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”,B类单元的基本结构是“卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层+池化层”;所述编码模块的单元序列分为两个阶段:三个流单独编码阶段和综合编码阶段,其中,EPIh流和EPIv流的单独编码阶段包含4个A类单元,而CV流的单独编码阶段包含3个A类单元;随后,将三个流的编码结果级联起来,进行综合编码,综合编码阶段包含3个B类单元;所述解码模块用于逐步恢复高分辨率输出,由6个C类基本单元构成,C类单元的基本结构是“反卷积层+卷积层+ReLU激活层+卷积层+ReLU激活层+卷积层+规范层+ReLU激活层”;所述跳层连接有CC1、CC2、CC3三个连接,CC1将EPIh流的第1个A类单元输出特征图、中心子孔径图像、EPIv流的第1个A类单元输出特征图级联到解码模块的第6个C类单元的反卷积层之后,CC2将EPIh流的第2个A类单元输出特征图、CV流的第1个A类单元输出特征图、EPIv流的第2个A类单元输出特征图级联到解码模块的第5个C类单元的反卷积层之后,CC3将EPIh流的第3个A类单元输出特征图、CV流的第2个A类单元输出特征图、EPIv流的第3个A类单元输出特征图级联到解码模块的第4个C类单元的反卷积层之后;所述输出模块将多通道特征图回归于单通道视差图,由1×1卷积层实现与中心子孔径图像等分辨率的视差图输出。
4.根据权利要求1所述的基于深度卷积神经网络的光场图像深度估计方法,其特征在于,所述步骤(4)包括以下步骤:
(41)MAE损失函数是指平均绝对误差损失,其计算方法是:
其中,表示视差预测值,yi表示视差真值,n表示损失计算时样本点总数;
(42)设置DCNET网络的超参数:初始化卷积神经网络学***均绝对误差MAE,设置训练批次大小16,迭代次数为200000;
(43)获取包含场景光场数据和场景视差真值的光场数据集,并将其划分为训练集和验证集;
(44)基于光场数据训练集,逐批生成训练所需的3流输入数据,使用RMSProp算法迭代训练;
(45)在光场数据验证集上进行测试评价,对于验证集内光场数据,利用训练后的DCNET网络输出预测的视差图,利用MSE和BadPix两个指标评价预测结果和真值之间差异;
(46)经步骤(45)评价,取得优异性能的网络参数集合P作为最优参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011007828.1A CN112116646B (zh) | 2020-09-23 | 2020-09-23 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011007828.1A CN112116646B (zh) | 2020-09-23 | 2020-09-23 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112116646A CN112116646A (zh) | 2020-12-22 |
CN112116646B true CN112116646B (zh) | 2023-11-24 |
Family
ID=73800914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011007828.1A Active CN112116646B (zh) | 2020-09-23 | 2020-09-23 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112116646B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365399B (zh) * | 2020-10-09 | 2024-05-03 | 江苏星闪世图科技(集团)有限公司 | 基于深度学习的风机叶片图像全景拼接方法和*** |
CN113965757A (zh) * | 2021-10-21 | 2022-01-21 | 上海师范大学 | 基于epi内在相似性的光场图像编码方法、设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993260A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工商大学 | 一种基于混合型卷积神经网络的光场图像深度估计方法 |
CN108416751A (zh) * | 2018-03-08 | 2018-08-17 | 深圳市唯特视科技有限公司 | 一种基于深度辅助全分辨率网络的新视点图像合成方法 |
CN108846473A (zh) * | 2018-04-10 | 2018-11-20 | 杭州电子科技大学 | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 |
CN110120071A (zh) * | 2019-05-15 | 2019-08-13 | 南京工程学院 | 一种面向光场图像的深度估计方法 |
CN110276795A (zh) * | 2019-06-24 | 2019-09-24 | 大连理工大学 | 一种基于***迭代算法的光场深度估计方法 |
CN111028273A (zh) * | 2019-11-27 | 2020-04-17 | 山东大学 | 一种基于多流卷积神经网络的光场深度估计方法及其实现*** |
CN111260707A (zh) * | 2020-02-21 | 2020-06-09 | 合肥工业大学 | 一种基于光场epi图像的深度估计方法 |
CN111325218A (zh) * | 2020-01-21 | 2020-06-23 | 西安理工大学 | 基于光场图像的Hog特征检测与匹配方法 |
CN111369443A (zh) * | 2020-03-19 | 2020-07-03 | 西安理工大学 | 光场跨尺度的零次学习超分辨率方法 |
CN111445476A (zh) * | 2020-02-27 | 2020-07-24 | 上海交通大学 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
CN111598775A (zh) * | 2020-04-26 | 2020-08-28 | 西安理工大学 | 基于lstm网络的光场视频时域超分辨重建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11004183B2 (en) * | 2018-07-10 | 2021-05-11 | The Board Of Trustees Of The Leland Stanford Junior University | Un-supervised convolutional neural network for distortion map estimation and correction in MRI |
WO2020075226A1 (ja) * | 2018-10-09 | 2020-04-16 | オリンパス株式会社 | 画像処理装置の作動方法、画像処理装置、及び画像処理装置の作動プログラム |
-
2020
- 2020-09-23 CN CN202011007828.1A patent/CN112116646B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993260A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工商大学 | 一种基于混合型卷积神经网络的光场图像深度估计方法 |
CN108416751A (zh) * | 2018-03-08 | 2018-08-17 | 深圳市唯特视科技有限公司 | 一种基于深度辅助全分辨率网络的新视点图像合成方法 |
CN108846473A (zh) * | 2018-04-10 | 2018-11-20 | 杭州电子科技大学 | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 |
CN110120071A (zh) * | 2019-05-15 | 2019-08-13 | 南京工程学院 | 一种面向光场图像的深度估计方法 |
CN110276795A (zh) * | 2019-06-24 | 2019-09-24 | 大连理工大学 | 一种基于***迭代算法的光场深度估计方法 |
CN111028273A (zh) * | 2019-11-27 | 2020-04-17 | 山东大学 | 一种基于多流卷积神经网络的光场深度估计方法及其实现*** |
CN111325218A (zh) * | 2020-01-21 | 2020-06-23 | 西安理工大学 | 基于光场图像的Hog特征检测与匹配方法 |
CN111260707A (zh) * | 2020-02-21 | 2020-06-09 | 合肥工业大学 | 一种基于光场epi图像的深度估计方法 |
CN111445476A (zh) * | 2020-02-27 | 2020-07-24 | 上海交通大学 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
CN111369443A (zh) * | 2020-03-19 | 2020-07-03 | 西安理工大学 | 光场跨尺度的零次学习超分辨率方法 |
CN111598775A (zh) * | 2020-04-26 | 2020-08-28 | 西安理工大学 | 基于lstm网络的光场视频时域超分辨重建方法 |
Non-Patent Citations (4)
Title |
---|
Vinh Van Duong ; Thuc Nguyen Huu ; Jeon Byeungwoo ."Comparison of Data Costs for Depth Estimation from Compressed Light Field Images".《INTERNATIONAL WORKSHOP ON ADVANCED IMAGING TECHNOLOGY (IWAIT) 2020》.2020,全文. * |
基于SPO和立体匹配的深度估计算法;陈思宇;;现代计算机(第11期);全文 * |
基于光场结构特性与多视点匹配的深度估计;范晓婷;李奕;罗晓维;张凝;韩梦芯;雷建军;;红外与激光工程(第05期);全文 * |
基于多流对极卷积神经网络的光场图像深度估计;王硕;王亚飞;;计算机应用与软件(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112116646A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462329B (zh) | 一种基于深度学习的无人机航拍影像的三维重建方法 | |
Wei et al. | Aa-rmvsnet: Adaptive aggregation recurrent multi-view stereo network | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN111652966B (zh) | 一种基于无人机多视角的三维重建方法及装置 | |
CN110490919B (zh) | 一种基于深度神经网络的单目视觉的深度估计方法 | |
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
CN110570522B (zh) | 一种多视图三维重建方法 | |
CN109598754B (zh) | 一种基于深度卷积网络的双目深度估计方法 | |
CN111696148A (zh) | 基于卷积神经网络的端到端立体匹配方法 | |
CN113345082B (zh) | 一种特征金字塔多视图三维重建方法和*** | |
CN112861729B (zh) | 一种基于伪深度图引导的实时深度补全方法 | |
CN112116646B (zh) | 一种基于深度卷积神经网络的光场图像深度估计方法 | |
CN111028273B (zh) | 一种基于多流卷积神经网络的光场深度估计方法及其实现*** | |
CN109949354B (zh) | 一种基于全卷积神经网络的光场深度信息估计方法 | |
Wei et al. | Bidirectional hybrid LSTM based recurrent neural network for multi-view stereo | |
CN113538243B (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及*** | |
CN113705796A (zh) | 基于epi特征强化的光场深度获取卷积神经网络 | |
Zhang et al. | Pa-mvsnet: Sparse-to-dense multi-view stereo with pyramid attention | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN103679680A (zh) | 立体匹配方法和*** | |
CN116468769A (zh) | 一种基于图像的深度信息估计方法 | |
CN115082540A (zh) | 一种适用于无人机平台的多视图深度估计方法及装置 | |
CN114092540A (zh) | 基于注意力机制的光场深度估计方法及计算机可读介质 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、***及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |