CN112991422A

CN112991422A - 一种基于空洞空间金字塔池化的立体匹配方法及***

Info

Publication number: CN112991422A
Application number: CN202110461480.1A
Authority: CN
Inventors: 蔡绍滨; 王宇昊; 张妍
Original assignee: Hangzhou Yunzhisheng Intelligent Technology Co ltd
Current assignee: Hangzhou Yunzhisheng Intelligent Technology Co ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-06-18

Abstract

本发明给出了一种基于空洞空间金字塔池化的立体匹配方法及***，包括对视点图像使用卷积神经网络进行特征提取，得到特征图；基于空洞卷积和空间金字塔池化方法，利用不同大小的扩张率从多个尺度对特征图提取像素的上下文信息；将得到的多个特征图维度使用堆叠的方式进行保存，取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器；基于3D卷积的方式，用3D卷积层对匹配代价容器进行卷积下采样和反卷积上采样后，基于双线性插值法进行上采样，对所述匹配代价容器中的所述特征子图进行尺寸恢复，最终得到视差图。有效的保存了特征图的维度，从而在之后的处理中有效地提取到所需要的图像特征，提高了处理的适应性，提升了立体匹配精度。

Description

一种基于空洞空间金字塔池化的立体匹配方法及***

技术领域

本发明涉及图像处理技术领域，尤其是一种基于空洞空间金字塔池化的立体匹配方法及***。

背景技术

双目立体视觉***可以根据左右相机拍摄得到的场景图像，恢复图像中物体的位置、外部特征等信息，还可以恢复出场景里障碍物的位置。其本质是从二维图像中恢复出三维信息的问题。场景中的点在图像上的位置由摄像机成像的几何模型决定。

为了从二维图像中获取场景中物体的深度信息，双目立体视觉***在左右两个位置放置相同参数的摄像机，从不同角度获取同一物体的图像信息，计算左右摄像机获得图片的相关性，获取隐含的视差信息，根据视差值计算图像的深度信息，即双目立体成像。这一过程模拟了人眼的视觉***。

现有一些开放性的机构提出了带有ground truth的双目视觉图像集，因此基于有监督的机器学习方法在立体匹配上得到了广泛的发展。现有的一些基于深度学习的立体匹配方法使用卷积神经网络学习匹配代价，再将匹配代价融合到传统立体匹配方法中。这种算法依然存在人工设计的步骤，立体匹配算法相对复杂，鲁棒性较弱，处理新的场景图像时适应能力差，没有充分发挥卷积神经网络强大的特征学习能力。现阶段立体视觉的主流研究方向是构建一个端到端的卷积神经网络。

发明内容

本发明提出了一种基于空洞空间金字塔池化的立体匹配方法及***，以解决上文提到的现有技术的缺陷。

在一个方面，本发明提出了一种基于空洞空间金字塔池化的立体匹配方法，该方法包括以下步骤：

S1:对视点图像的左视图和右视图使用卷积神经网络进行特征提取，得到左视点特征图和右视点特征图；

S2:基于空洞卷积和空间金字塔池化方法，利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息，得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度；

S3：将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存，将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存，取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器；

S4:基于3D卷积的方式，用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后，基于双线性插值法进行上采样，对所述匹配代价容器中的所述特征子图进行尺寸恢复，得到视差图。

以上方法通过空间金字塔池化方法有效地提取到像素的上下文信息，再利用空洞卷积可以更有效地提取像素的上下文信息，从而在神经网络上用不同大小的扩张率抓取多尺度信息，在将得到的特征图进行保存时，区别于MC-CNN算法中使用计算特征向量的点积的方式用以组合左右输入图像的特征图，而是利用堆叠的方式，有效的保存了特征图的维度，从而在之后的处理中有效的提取到我们所需要的图像特征，避免丢失图像的特征信息。

在具体的实施例中，以上步骤还包括步骤S5：基于视差回归方法对所述视差图进行精细化。

在具体的实施例中，步骤S1中的特征提取使用了3个3×3的卷积核。相比于传统的方法中使用7×7大小的卷积核，两者的感受是一样大的，利用本发明的方案可以减少参数的数量，降低计算的复杂度。

在具体的实施例中，在进行所述特征提取前，还包括将左视图和右视图下采样为原来图像尺寸的1/2。用以降低图像的分辨率，提高网络的运行效率。

在具体的实施例中，使用卷积神经网络进行特征提取包括：对所述左视图和右视图分别在每一个卷积操作结束后，添加批次归一化层和ReLU层。用以提高整个神经网络对于特征的学习能力，加快神经网络的收敛速度。

在具体的实施例中，空洞卷积和空间金字塔池化方法具体包括：利用并行的扩张率不同的多个空洞卷积和一个平均池化对所述左视点特征图的像素的上下文信息进行多次提取，同时利用所述多个空洞卷积和一个平均池化对所述右视点特征图的像素的上下文信息进行多次提取。

在具体的实施例中，步骤S3中取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器，具体步骤包括：

分别从所述左视点特征图

和所述右视点特征图

中取一个特征图维度，记为第i维的特征图

和

；

取一个视差值d对所述特征图

和

分别提取特征子图，得到所述视差值d下第i维的特征图的特征子图；

遍历视差搜索范围内的所有视差值，得到第i维的特征图的所有特征子图；

遍历所有特征图，将得到的所有特征子图构成匹配代价容器。

在优选的实施例中，视差回归方法包括：

采用GC-Net提出的视差回归方法，计算出每个像素在不同视差下的匹配代价C _d，通过softmax运算，从匹配代价C _d计算出每个视差d的概率，最后对每个视差d加权求和得到视差预测值

，所述视差预测值

的计算公式为：

其中

表示对匹配代价C _d进行softmax运算，D _max表示视差搜索范围的最大值。

在优选的实施例中，视差回归方法使用了smoothL1损失函数，具体方法包括：

记所述视差图的图像上具有视差值标记的点的个数为N，

表示实际的视差值，

表示预测的视差值，i为视差值标记点，

表示视差值标记点i的实际的视差值，

表示视差值标记点i的预测的视差值，有

其中，L是平均损失函数，smoothL1是损失函数，x是损失函数smoothL1的自变量，通过梯度下降算法使得所述损失函数的值一直降低，不断迭代直到所述损失函数的值不再下降，此时所述视差回归方法达到收敛，取此时的视差图为最终的视差图。

根据本发明的第二方面，提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机处理器执行时实施上述方法。

根据本发明的第三方面，提出一种基于空洞空间金字塔池化的立体匹配***，该***包括：

视点图像特征提取模块:配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取，得到左视点特征图和右视点特征图；

空洞空间金字塔池化模块:配置用于基于空洞卷积和空间金字塔池化方法，利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息，得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度；

匹配代价容器构建模块：配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存，将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存，取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器；

3D卷积模块:配置用于基于3D卷积的方式，用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后，基于双线性插值法进行上采样，对所述匹配代价容器中的所述特征子图进行尺寸恢复，得到视差图。

在具体的实施例中，该***还包括：

视差回归模块：配置用于基于视差回归方法对所述视差图进行精细化。

本发明通过对视点图像的左视图和右视图使用卷积神经网络进行特征提取，得到左视点特征图和右视点特征图；基于空洞卷积和空间金字塔池化方法，利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息，得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度；将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存，将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存，取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器；基于3D卷积的方式，用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后，基于双线性插值法进行上采样，对所述匹配代价容器中的所述特征子图进行尺寸恢复，最终得到视差图。利用空洞空间金字塔池化的方法，在神经网络上用不同大小的扩张率抓取图像中多尺度的信息，再采用堆叠的方式保存特征图，有效的保存了特征图的维度，从而在之后的处理中有效的提取到我们所需要的图像特征，避免了丢失图像的特征信息。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配方法的流程图；

图2是本发明的一个具体的实施例的空洞空间金字塔池化模块示意图；

图3是本发明的一个具体的实施例的构建匹配代价容器的示意图；

图4是本发明的一个具体的实施例的编码解码结构的3D卷积示意图；

图5是本发明的一个具体的实施例的双线插值示意图；

图6是本发明的一个具体的实施例的KITTI 2012第5张彩色视差图示意图；

图7是本发明的一个具体的实施例的KITTI 2012第5张误点图示意图；

图8是本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配***的框架图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配方法，图1示出了根据本发明的实施例的一种基于空洞空间金字塔池化的立体匹配方法的流程图。如图1所示，该方法包括以下步骤：

S101:对视点图像的左视图和右视图使用卷积神经网络进行特征提取，得到左视点特征图和右视点特征图。

在具体的实施例中，在进行所述特征提取前，还包括将左视图和右视图下采样为原来图像尺寸的1/2。

在具体的实施例中，步骤S1中的特征提取使用了3个3×3的卷积核，同时使用了残差网络块来进行特征提取。

在具体的实施例中，使用卷积神经网络进行特征提取包括：对所述左视图和右视图分别在每一个卷积操作结束后，添加批次归一化层和ReLU层。

S102:基于空洞卷积和空间金字塔池化方法，利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息，得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度。

图2示出了本发明的一个具体的实施例的空洞空间金字塔池化模块示意图，在本实施例中，使用并行的4个不同层级的空洞卷积操作和一个平均池化层对左视点特征图和右视点特征图进行操作，这五个层级分别为：

一个卷积核为1×1扩张率为1的卷积层201、一个卷积核为3×3扩张率为6的卷积层202、一个卷积核为3×3扩张率为12的卷积层203、一个卷积核为3×3扩张率为18的卷积层204和一个平均池化层205，最后将这五个层级提取出来的特征图维度按照左视点特征图和右视点特征图对应进行堆叠，得到保存了多种尺度的上下文信息的特征图。

S103：将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存，将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存，取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器。

图3示出了本发明的一个具体的实施例的构建匹配代价容器的示意图，在本实施例中，左右视点特征图分别为32通道，其中H为影像高度、W为影像宽度、D为视差搜索范围，具体步骤包括：

分别从所述左视点特征图

和所述右视点特征图

中取一个特征图维度，记为第i维的特征图

和

；

取一个视差值d对所述特征图

和

分别提取特征子图，得到所述视差值d下第i维的特征图的特征子图，此时

取到的特征子图为d列到

列的子图，

取到的特征子图为第1列到第

-d列的子图；

遍历视差搜索范围内的所有视差值，即遍历所有的视差值

，得到第i维的特征图的所有特征子图，共

张；

遍历全部32通道的特征图，将得到的所有特征子图构成匹配代价容器，大小为

。

S104:基于3D卷积的方式，用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后，基于双线性插值法进行上采样，对所述匹配代价容器中的所述特征子图进行尺寸恢复，得到视差图。

图4示出了本发明的一个具体的实施例的编码解码结构的3D卷积示意图，在本实施例中，空洞空间金字塔池化网络形成的匹配代价容器在这里进行了2次3D卷积下采样和2次3D反卷积上采样处理的过程，在经过若干卷积层的处理后，图像的宽度和高度变为原来的1/4；为了恢复特征图的尺寸，将它变为与原来输入图像尺寸一样，采用了双线性插值的方法对图像进行上采样，利用图像上对应关系的最近的四个点来猜测一个点的位置，将这个位置补全。

图5示出了本发明的一个具体的实施例的双线插值示意图，其中，f()为双线性插值函数，Q ₁₁、Q ₂₁、Q ₁₂和Q ₂₂表示已知点，R ₁、R ₂和P表示未知点，f(Q ₁₁)、f(Q ₂₁)、f(Q ₁₂)、f(Q ₂₂)、f(R ₁)、f(R ₂)和f(P)分别表示各点的双线性插值函数值，图中(x ₁,y ₁)、(x ₂,y ₁)、(x ₁,y ₂)、(x ₂,y ₂)、(x,y ₁)、(x,y ₂)和(x,y)分别表示Q ₁₁、Q ₂₁、Q ₁₂、Q ₂₂、R ₁、R ₂和P各点的坐标，使用双线性插值方法补全未知点P的公式如下：

在本实施例中，根据以上公式，并根据图5中Q ₁₁和Q ₂₁的位置来猜测出R ₁的位置，根据Q ₁₂和Q ₂₂猜测出R ₂的位置，最后根据R ₁和R ₂的位置猜测出P的位置。

在具体的实施例中，以上步骤还包括步骤S105：基于视差回归方法对所述视差图进行精细化。

在本实施例中，采用GC-Net提出的视差回归方法，图像的视差等级是

，本实施例的视差回归方法包括：

计算出每个像素在不同视差下的匹配代价C _d，通过softmax运算，从匹配代价C _d计算出每个视差d的概率，最后对每个视差d加权求和得到视差预测值

，所述视差预测值

的计算公式为：

其中

表示对匹配代价C _d进行softmax运算，D _max表示视差搜索范围的最大值，匹配代价越低，对应的视差d的置信度越高。

记所述视差图的图像上具有视差值标记的点的个数为N，

表示实际的视差值，

表示预测的视差值，i为视差值标记点，

表示视差值标记点i的实际的视差值，

表示视差值标记点i的预测的视差值，有

在优选的实施例中，选用KITTI数据集作为基础数据集：

KITTI数据集是德国的一所高校所采集的数据集，同时作为目前国际上最大的自动驾驶场景中的计算机视觉算法评测数据集，在自动驾驶领域作出了突出的贡献。KITTI数据集是装有四个摄像机，雷达测距***的汽车行驶在德国西南部城市，包含了树木、地面、草地和汽车等，对于图像的深度学习有很高的挑战性。图像上最多可以包含30个行人和15辆汽车。所以在 KITTI 数据集上的实验可以有效的验证在本章算法在真实路面上的适应性。

本实施例在标准公开数据集KITTI Stereo benchmark上评估了本发明公开的算法。上传网络训练得到的视差图到 KITTI Stereo benchmark 上，在这个数据集上分别做了实验的定量分析和定性分析，将从这两个角度上来分析本发明公开的空洞空间金字塔池化网络（ASPPMNet）的有效性。

在本实施例中，实验运行的环境，主要包括：

1）Inter Core i7-6700k,主频 4GHz的CPU。

2）8G内存

3）Nvidia GeForce GTX 1080Ti,11GB 显存的GPU。

4）Windows 10操作***

5）Pytorch 0.4.1深度学习框架

6）CUDA9.0

在本实施例中，实验运行的方案，主要包括：

KITTI Stereo 2012 数据集收集了 194 对训练图像和与之对应的真实视差图，195 对测试图像，KITTI Stereo 2015数据集包含200对训练图像，还有200张对应的视差图。还有200对测试图像，并没有给出真实的视差值。将训练集的80%也就是160对图像作为训练集，10%也就是20对图像作为验证集，10% 作为测试集。为了扩大训练集的样本，对训练集进行了随机裁剪来扩大训练集。并且将原始图像裁剪成为512×256大小，所对应的 W为512，H为256。另外学习率恒定为lr=0.001。采用了Adam优化器，Adam算法是一种随机优化的方法，需要很小的内存，只用到一阶梯度，Batch size设为4。

在KITTI Stereo 2015数据集上进行了算法评估。使用SGM，MC-CNN-acrt，PSMNet，GC-Net，SegStereo以及本发明公开的空洞空间金字塔池化方法（ASPPMNet）这六种方法，对KITTI 2012中具有代表性的第5张图片进行立体匹配处理，并对处理结果进行对比评估。

图6示出了本发明的一个具体的实施例的KITTI 2012第5张彩色视差图示意图，Input Image表示真实图像，D1-Result表示输出的视差图，根据形成的视差图，经过彩色像素处理的D1 Result可以很明显的看出全部参考网络对于训练有光照还有弱纹理的区域的挑战性是很大的。根据实验结果图像可以看出，本发明公开的算法的实验效果较好。

图7示出了本发明的一个具体的实施例的KITTI 2012第5张误点图示意图，可以看出本发明公开的算法对于像素点语义信息的提取是成功的，可以有效的提升匹配精度。

图8示出了本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配***的框架图。该***包括视点图像特征提取模块801、空洞空间金字塔池化模块802、匹配代价容器构建模块803和3D卷积模块804。

在具体的实施例中，视点图像特征提取模块801被配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取，得到左视点特征图和右视点特征图；空洞空间金字塔池化模块802被配置用于基于空洞卷积和空间金字塔池化方法，利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息，得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度；匹配代价容器构建模块803被配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存，将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存，取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器；3D卷积模块804被配置用于基于3D卷积的方式，用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后，基于双线性插值法进行上采样，对所述匹配代价容器中的所述特征子图进行尺寸恢复，得到视差图。

在具体的实施例中，该***还包括视差回归模块805，视差回归模块805被配置用于基于视差回归方法对所述视差图进行精细化。

通过以上模块的共同作用，实现了利用空洞空间金字塔池化的方法，在神经网络上用不同大小的扩张率抓取图像中多尺度的信息，再采用堆叠的方式保存特征图，有效的保存了特征图的维度，从而在之后的处理中有效的提取到我们所需要的图像特征，避免了丢失图像的特征信息。

本发明的实施例还涉及一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。

本发明通过对视点图像的左视图和右视图使用卷积神经网络进行特征提取，得到左视点特征图和右视点特征图；基于空洞卷积和空间金字塔池化方法，利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息，得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度；将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存，将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存，取不同的视差值对所述特征图维度提取特征子图，构成匹配代价容器；基于3D卷积的方式，用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后，基于双线性插值法进行上采样，对所述匹配代价容器中的所述特征子图进行尺寸恢复，最终得到视差图。利用空洞空间金字塔池化的方法，在神经网络上用不同大小的扩张率抓取图像中多尺度的信息，再采用堆叠的方式保存特征图，有效的保存了特征图的维度，从而在之后的处理中有效的提取到我们所需要的图像特征，避免了丢失图像的特征信息。

实验表明本发明所构建的基于空洞空间金字塔池化的立体匹配方法，在处理图像的前景的过程中有着更优秀的表现，并且在一些遮挡区域也能很好的适应处理，对于像素点语义信息的提取准确，可以有效的提升匹配精度。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。