CN107590831A

CN107590831A - 一种基于深度学习的立体匹配方法

Info

Publication number: CN107590831A
Application number: CN201710764319.5A
Authority: CN
Inventors: 李宏亮; 董蒙; 孙玲; 张文海; 翁爽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2018-01-16
Anticipated expiration: 2037-08-30
Also published as: CN107590831B

Abstract

本发明提供一种基于深度学习的立体匹配方法，利用深度学习方法提取特征，得到的特征谱每个点的感受野很大，但同时又不会有传统局部匹配方法带来的前景膨胀效应，解决了局部匹配方法窗口难以选取的问题。且通过深度学习得到的高维度特征谱，充分描述了区域的数据分布特征，对后面的相似性检测有很强的指导意义。本发明根据左右视图利用深度学习方法输出一个W*H*D的代价体，再利用胜者为王WTA策略得到初始视差图，最后利用原左视图作为引导图像做引导滤波，该方法具备较高的准确性，并且由于神经网络的可并行化程度高，合理的运用GPU并行加速可以使该方法达到很快的运算速度。

Description

一种基于深度学习的立体匹配方法

技术领域

本发明涉及立体匹配技术。

背景技术

双目视觉是计算机视觉领域一个重要的分支，而其中的立体匹配又是双目视觉中最重要的一个环节。双目测距一般是通过两台相同的摄像机在同一时间获取同一场景不同视角的两幅图像，然后利用立体匹配方法找到两幅图像中相同物体或是纹理的对应关系，最后根据视差来还原该物体与摄像机的距离。

总的来说立体匹配方法可以分为全局方法和局部方法两种。全局方法基于平滑性假设，利用各种方法构造全局能量函数，并用最优化方法计算该能量函数的最小值点。而局部方法依赖局部信息，通过计算匹配窗口内的总匹配代价，利用WTA策略找到最小值来确定视差。

全局立体匹配算法利用图像的平滑项和数据项两项约束来求解整体能量函数的最小值，通常运算量大，且难以进行并行优化，耗时长，不适合实时***。

半全局立体匹配存在以下几种缺陷：(1)窗口大小的确定困难：窗口太大计算量大，且在深度不连续区域会产生前景膨胀效应，边缘的效果很差；窗口太小则无法包含物体的全部纹理特征，造成匹配结果的多义性。(2)用于计算代价的值仅仅是图像的灰度值或是低阶差分，不能很好的描述特征。即使是使用了非参数的Census变换，也仅仅是增强了对噪声的鲁棒性，并不能解决特征描述不充分的问题。

近年来，深度学习的发展逐渐成熟，在语音识别、图像理解等领域取得了突破性的进展，究其原因，则是其提取深层特征的能力。再者，图形处理器GPU运算能力的迅速提高使得神经网络的训练及前向传播速度得到了本质的提升，使在实时/准实时***中使用深度学习技术成为了可能。

发明内容

本发明所要解决的技术问题是，提供一种利用深度学习方法来进行立体匹配的方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于深度学习的立体匹配方法，包括以下步骤：

1)将输入尺寸为W*H的左视图image1与右视图image2作为两路数据输入到深度学习网络分别进行特征提取得到代价体，W为视图宽，H为视图的高：

1-1)对左视图image1、右视图image2分别进行一次卷积及一次池化，得到各自的特征谱pool1；

1-2)对特征谱pool1进行一次卷积及一次池化，得到特征谱pool2；

1-3)对特征谱pool2进行一次带孔洞的卷积操作得到特征谱conv3；对特征谱conv3进行一次带孔洞的卷积操作得到特征谱conv4，在通道数的维度上合并特征谱conv3和特征谱conv4，并对合并结果进行卷积操作得到特征谱conv5；

1-4)将从左视图得到的特征谱conv5_left和从右视图得到的特征谱conv5_right在范围D/4内进行合并，得到D/4个合并结果concat[1]到concat[D/4]，D为预设的视差搜索范围；

1-5)将得到的D/4个合并结果concat[1]到concat[D/4]分别进行1*1的卷积操作得到特征谱conv6，对特征谱conv6做11*11的卷积得到特征谱conv7，对特征谱conv7做1*1的卷积得到特征谱conv8；

1-6)特征谱conv8经回归模型softmax分类器得到一个W/4*H/4*2的分类结果；分类结果中每个点对应的两个结果为匹配成功的概率及匹配失败的概率，保留分类结果中每个点对应的匹配失败的概率，将D/4个分类结果合并成一个W/4*H/4*D/4的代价体C3；

2)将左视图image1、右视图image2的差的绝对值作为一个W*H*D的代价体C1；将左、右图像得到的特征谱pool1_left和pool1_right的差的绝对值作为一个W/2*H/2*D/2的代价体C2，最后将代价体C3、C2与C1合并得到最终的代价体一个W*H*D的代价体C；

3)根据代价体C用胜者为王WTA策略寻找最佳匹配点，得到初始视差图；最后利用左视图作为引导图像对初始视差图进行引导滤波，得到最终的精确视差图。

本发明的有益效果是，利用深度学习方法提取特征，得到的特征谱每个点的感受野很大，但同时又不会有传统局部匹配方法带来的前景膨胀效应，解决了局部匹配方法窗口难以选取的问题。且通过深度学习得到的高维度特征谱，充分描述了区域的数据分布特征，对后面的相似性检测有很强的指导意义。本发明根据左右视图利用深度学习方法输出一个W*H*D的代价体，再利用胜者为王WTA策略得到初始视差图，最后利用原左视图作为引导图像做引导滤波，该方法具备较高的准确性，并且由于神经网络的可并行化程度高，合理的运用GPU并行加速可以使该方法达到很快的运算速度。

附图说明

图1：本发明使用的金字塔型匹配代价体合成示意图。

具体实施方式

本发明可以分为深度学习匹配代价体生成，金字塔匹配代价合成，引导滤波三个阶段。

步骤一：输入参数校正后的左右视图image1和image2，作为两路数据输入到网络分别进行特征计算：(1)进行一次3*3的卷积及一次2*2且步长为2的最大池化，得到一个尺寸为原图尺寸1/2的特征谱pool1。(2)对pool1进行一次3*3的卷积及一次2*2且步长为2的最大池化，得到一个尺寸为原图1/4的特征谱pool2。(3)对该特征谱进行一次3*3且膨胀系数为2的卷积操作得到特征谱conv3，对conv3进行一次3*3且膨胀系数为2的卷积操作得到特征谱conv4,在通道数的维度上合并conv3和conv4,并进行卷积操作得到特征谱conv5。

将左图得到的conv5_left和右图得到的conv5_right，在视差搜索范围D/4内进行合并，得到concat[1]到concat[D/4](原图的视差搜索范围是D，因为conv5的尺寸为原图尺寸的1/4，所以视差搜索范围也缩小为1/4。合并的具体方法为将conv5_right左移D位与conv5_left在通道数维度上叠加)。将得到的concat[1]到concat[D/4]分别进行1*1*32的卷积操作压缩通道数得到conv6，对conv6做11*11的卷积得到conv7，对conv7做1*1的卷积得到conv8。对conv8进行softmax得到一个W/4*H/4*2的分类结果。每个点对应的两个结果为匹配成功的概率及匹配失败的概率。保留匹配失败的概率，将D/4个结果合并成一个W/4*H/4*D/4的代价体C3。

步骤二：计算原始图像的AD(差的绝对值)代价C1(W*H*D)，计算左右图像得到的特征谱pool1_left和pool1_right的AD代价C2(W/2*H/2*D/2)，将C3、C2与C1合并得到最终的代价体C。公式如下，根据经验控制权值，通常我们把C3的权值设为20，C1和C2的权值为1。

C＝μ₁C₁+μ₂C₂+μ₃C₃

步骤三：根据上述步骤得到的代价体C，用WTA(胜者为王)策略寻找最佳匹配点，得到初始视差。最后利用左图作为引导图像对初始视差图进行引导滤波，得到最终的精确视差图。

Claims

1.一种基于深度学习的立体匹配方法，其特征在于，包括以下步骤：

2.如权利要求1所述方法，其特征在于，代价体C3、C2与C1合并得到代价体C的具体方法为：

C＝μ₁C₁+μ₂C₂+μ₃C₃。

其中，μ₁、μ₂、μ₃均为控制权值，μ₃＝20，C1＝1，C2＝1.。