CN112991422A - 一种基于空洞空间金字塔池化的立体匹配方法及*** - Google Patents
一种基于空洞空间金字塔池化的立体匹配方法及*** Download PDFInfo
- Publication number
- CN112991422A CN112991422A CN202110461480.1A CN202110461480A CN112991422A CN 112991422 A CN112991422 A CN 112991422A CN 202110461480 A CN202110461480 A CN 202110461480A CN 112991422 A CN112991422 A CN 112991422A
- Authority
- CN
- China
- Prior art keywords
- feature map
- feature
- parallax
- disparity
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000011176 pooling Methods 0.000 title claims abstract description 47
- 239000011800 void material Substances 0.000 title claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 238000011084 recovery Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011796 hollow space material Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/97—Determining parameters from multiple pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明给出了一种基于空洞空间金字塔池化的立体匹配方法及***,包括对视点图像使用卷积神经网络进行特征提取,得到特征图;基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对特征图提取像素的上下文信息;将得到的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;基于3D卷积的方式,用3D卷积层对匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,最终得到视差图。有效的保存了特征图的维度,从而在之后的处理中有效地提取到所需要的图像特征,提高了处理的适应性,提升了立体匹配精度。
Description
技术领域
本发明涉及图像处理技术领域,尤其是一种基于空洞空间金字塔池化的立体匹配方法及***。
背景技术
双目立体视觉***可以根据左右相机拍摄得到的场景图像,恢复图像中物体的位置、外部特征等信息,还可以恢复出场景里障碍物的位置。其本质是从二维图像中恢复出三维信息的问题。场景中的点在图像上的位置由摄像机成像的几何模型决定。
为了从二维图像中获取场景中物体的深度信息,双目立体视觉***在左右两个位置放置相同参数的摄像机,从不同角度获取同一物体的图像信息,计算左右摄像机获得图片的相关性,获取隐含的视差信息,根据视差值计算图像的深度信息,即双目立体成像。这一过程模拟了人眼的视觉***。
现有一些开放性的机构提出了带有ground truth的双目视觉图像集,因此基于有监督的机器学习方法在立体匹配上得到了广泛的发展。现有的一些基于深度学习的立体匹配方法使用卷积神经网络学习匹配代价,再将匹配代价融合到传统立体匹配方法中。这种算法依然存在人工设计的步骤,立体匹配算法相对复杂,鲁棒性较弱,处理新的场景图像时适应能力差,没有充分发挥卷积神经网络强大的特征学习能力。现阶段立体视觉的主流研究方向是构建一个端到端的卷积神经网络。
发明内容
本发明提出了一种基于空洞空间金字塔池化的立体匹配方法及***,以解决上文提到的现有技术的缺陷。
在一个方面,本发明提出了一种基于空洞空间金字塔池化的立体匹配方法,该方法包括以下步骤:
S1:对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
S2:基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
S3:将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
S4:基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
以上方法通过空间金字塔池化方法有效地提取到像素的上下文信息,再利用空洞卷积可以更有效地提取像素的上下文信息,从而在神经网络上用不同大小的扩张率抓取多尺度信息,在将得到的特征图进行保存时,区别于MC-CNN算法中使用计算特征向量的点积的方式用以组合左右输入图像的特征图,而是利用堆叠的方式,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免丢失图像的特征信息。
在具体的实施例中,以上步骤还包括步骤S5:基于视差回归方法对所述视差图进行精细化。
在具体的实施例中,步骤S1中的特征提取使用了3个3×3的卷积核。相比于传统的方法中使用7×7大小的卷积核,两者的感受是一样大的,利用本发明的方案可以减少参数的数量,降低计算的复杂度。
在具体的实施例中,在进行所述特征提取前,还包括将左视图和右视图下采样为原来图像尺寸的1/2。用以降低图像的分辨率,提高网络的运行效率。
在具体的实施例中,使用卷积神经网络进行特征提取包括:对所述左视图和右视图分别在每一个卷积操作结束后,添加批次归一化层和ReLU层。用以提高整个神经网络对于特征的学习能力,加快神经网络的收敛速度。
在具体的实施例中,空洞卷积和空间金字塔池化方法具体包括:利用并行的扩张率不同的多个空洞卷积和一个平均池化对所述左视点特征图的像素的上下文信息进行多次提取,同时利用所述多个空洞卷积和一个平均池化对所述右视点特征图的像素的上下文信息进行多次提取。
在具体的实施例中,步骤S3中取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器,具体步骤包括:
遍历视差搜索范围内的所有视差值,得到第i维的特征图的所有特征子图;
遍历所有特征图,将得到的所有特征子图构成匹配代价容器。
在优选的实施例中,视差回归方法包括:
采用GC-Net提出的视差回归方法,计算出每个像素在不同视差下的匹配代价C d ,
通过softmax运算,从匹配代价C d 计算出每个视差d的概率,最后对每个视差d加权求和得到
视差预测值,所述视差预测值的计算公式为:
在优选的实施例中,视差回归方法使用了smoothL1损失函数,具体方法包括:
其中,L是平均损失函数,smoothL1是损失函数,x是损失函数smoothL1的自变量,通过梯度下降算法使得所述损失函数的值一直降低,不断迭代直到所述损失函数的值不再下降,此时所述视差回归方法达到收敛,取此时的视差图为最终的视差图。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出一种基于空洞空间金字塔池化的立体匹配***,该***包括:
视点图像特征提取模块:配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
空洞空间金字塔池化模块:配置用于基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
匹配代价容器构建模块:配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
3D卷积模块:配置用于基于3D卷积的方式,用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
在具体的实施例中,该***还包括:
视差回归模块:配置用于基于视差回归方法对所述视差图进行精细化。
本发明通过对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;基于3D卷积的方式,用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,最终得到视差图。利用空洞空间金字塔池化的方法,在神经网络上用不同大小的扩张率抓取图像中多尺度的信息,再采用堆叠的方式保存特征图,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免了丢失图像的特征信息。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配方法的流程图;
图2是本发明的一个具体的实施例的空洞空间金字塔池化模块示意图;
图3是本发明的一个具体的实施例的构建匹配代价容器的示意图;
图4是本发明的一个具体的实施例的编码解码结构的3D卷积示意图;
图5是本发明的一个具体的实施例的双线插值示意图;
图6是本发明的一个具体的实施例的KITTI 2012第5张彩色视差图示意图;
图7是本发明的一个具体的实施例的KITTI 2012第5张误点图示意图;
图8是本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配***的框架图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配方法,图1示出了根据本发明的实施例的一种基于空洞空间金字塔池化的立体匹配方法的流程图。如图1所示,该方法包括以下步骤:
S101:对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图。
在具体的实施例中,在进行所述特征提取前,还包括将左视图和右视图下采样为原来图像尺寸的1/2。
在具体的实施例中,步骤S1中的特征提取使用了3个3×3的卷积核,同时使用了残差网络块来进行特征提取。
在具体的实施例中,使用卷积神经网络进行特征提取包括:对所述左视图和右视图分别在每一个卷积操作结束后,添加批次归一化层和ReLU层。
S102:基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度。
在具体的实施例中,空洞卷积和空间金字塔池化方法具体包括:利用并行的扩张率不同的多个空洞卷积和一个平均池化对所述左视点特征图的像素的上下文信息进行多次提取,同时利用所述多个空洞卷积和一个平均池化对所述右视点特征图的像素的上下文信息进行多次提取。
图2示出了本发明的一个具体的实施例的空洞空间金字塔池化模块示意图,在本实施例中,使用并行的4个不同层级的空洞卷积操作和一个平均池化层对左视点特征图和右视点特征图进行操作,这五个层级分别为:
一个卷积核为1×1扩张率为1的卷积层201、一个卷积核为3×3扩张率为6的卷积层202、一个卷积核为3×3扩张率为12的卷积层203、一个卷积核为3×3扩张率为18的卷积层204和一个平均池化层205,最后将这五个层级提取出来的特征图维度按照左视点特征图和右视点特征图对应进行堆叠,得到保存了多种尺度的上下文信息的特征图。
S103:将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器。
图3示出了本发明的一个具体的实施例的构建匹配代价容器的示意图,在本实施例中,左右视点特征图分别为32通道,其中H为影像高度、W为影像宽度、D为视差搜索范围,具体步骤包括:
S104:基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
图4示出了本发明的一个具体的实施例的编码解码结构的3D卷积示意图,在本实施例中,空洞空间金字塔池化网络形成的匹配代价容器在这里进 行了2次3D卷积下采样和2次3D反卷积上采样处理的过程,在经过若干卷积层的处理后,图像的宽度和高度变为原来的1/4;为了恢复特征图的尺寸,将它变为与原来输入图像尺寸一样,采用了双线性插值的方法对图像进行上采样,利用图像上对应关系的最近的四个点来猜测一个点的位置,将这个位置补全。
图5示出了本发明的一个具体的实施例的双线插值示意图,其中,f()为双线性插值函数,Q 11、Q 21、Q 12和Q 22表示已知点,R 1、R 2和P表示未知点,f(Q 11)、f(Q 21)、f(Q 12)、f(Q 22)、f(R 1)、f(R 2)和f(P)分别表示各点的双线性插值函数值,图中(x 1,y 1)、(x 2,y 1)、(x 1,y 2)、(x 2,y 2)、(x,y 1)、(x,y 2)和(x,y)分别表示Q 11、Q 21、Q 12、Q 22、R 1、R 2和P各点的坐标,使用双线性插值方法补全未知点P的公式如下:
在本实施例中,根据以上公式,并根据图5中Q 11和Q 21的位置来猜测出R 1的位置,根据Q 12和Q 22猜测出R 2的位置,最后根据R 1和R 2的位置猜测出P的位置。
在具体的实施例中,以上步骤还包括步骤S105:基于视差回归方法对所述视差图进行精细化。
在优选的实施例中,视差回归方法使用了smoothL1损失函数,具体方法包括:
其中,L是平均损失函数,smoothL1是损失函数,x是损失函数smoothL1的自变量,通过梯度下降算法使得所述损失函数的值一直降低,不断迭代直到所述损失函数的值不再下降,此时所述视差回归方法达到收敛,取此时的视差图为最终的视差图。
在优选的实施例中,选用KITTI数据集作为基础数据集:
KITTI数据集是德国的一所高校所采集的数据集,同时作为目前国际上最大的自动驾驶场景中的计算机视觉算法评测数据集,在自动驾驶领域作出了突出的贡献。KITTI数据集是装有四个摄像机,雷达测距***的汽车行驶在德国西南部城市,包含了树木、地面、草地和汽车等,对于图像的深度学习有很高的挑战性。图像上最多可以包含30个行人和15辆汽车。所以在 KITTI 数据集上的实验可以有效的验证在本章算法在真实路面上的适应性。
本实施例在标准公开数据集KITTI Stereo benchmark上评估了本发明公开的算法。上传网络训练得到的视差图到 KITTI Stereo benchmark 上,在这个数据集上分别做了实验的定量分析和定性分析,将从这两个角度上来分析本发明公开的空洞空间金字塔池化网络(ASPPMNet)的有效性。
在本实施例中,实验运行的环境,主要包括:
1)Inter Core i7-6700k,主频 4GHz的CPU。
2)8G内存
3)Nvidia GeForce GTX 1080Ti,11GB 显存的GPU。
4)Windows 10操作***
5)Pytorch 0.4.1深度学习框架
6)CUDA9.0
在本实施例中,实验运行的方案,主要包括:
KITTI Stereo 2012 数据集收集了 194 对训练图像和与之对应的真实视差图,195 对测试图像,KITTI Stereo 2015数据集包含200对训练图像,还有200张对应的视差图。还有200对测试图像,并没有给出真实的视差值。将训练集的80%也就是160对图像作为训练集,10%也就是20对图像作为验证集,10% 作为测试集。为了扩大训练集的样本,对训练集进行了随机裁剪来扩大训练集。并且将原始图像裁剪成为512×256大小,所对应的 W为512,H为256。另外学习率恒定为lr=0.001。采用了Adam优化器,Adam算法是一种随机优化的方法,需要很小的内存,只用到一阶梯度,Batch size设为4。
在KITTI Stereo 2015数据集上进行了算法评估。使用SGM,MC-CNN-acrt,PSMNet,GC-Net,SegStereo以及本发明公开的空洞空间金字塔池化方法(ASPPMNet)这六种方法,对KITTI 2012中具有代表性的第5张图片进行立体匹配处理,并对处理结果进行对比评估。
图6示出了本发明的一个具体的实施例的KITTI 2012第5张彩色视差图示意图,Input Image表示真实图像,D1-Result表示输出的视差图,根据形成的视差图,经过彩色像素处理的D1 Result可以很明显的看出全部参考网络对于训练有光照还有弱纹理的区域的挑战性是很大的。根据实验结果图像可以看出,本发明公开的算法的实验效果较好。
图7示出了本发明的一个具体的实施例的KITTI 2012第5张误点图示意图,可以看出本发明公开的算法对于像素点语义信息的提取是成功的,可以有效的提升匹配精度。
图8示出了本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配***的框架图。该***包括视点图像特征提取模块801、空洞空间金字塔池化模块802、匹配代价容器构建模块803和3D卷积模块804。
在具体的实施例中,视点图像特征提取模块801被配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;空洞空间金字塔池化模块802被配置用于基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;匹配代价容器构建模块803被配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;3D卷积模块804被配置用于基于3D卷积的方式,用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
在具体的实施例中,该***还包括视差回归模块805,视差回归模块805被配置用于基于视差回归方法对所述视差图进行精细化。
通过以上模块的共同作用,实现了利用空洞空间金字塔池化的方法,在神经网络上用不同大小的扩张率抓取图像中多尺度的信息,再采用堆叠的方式保存特征图,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免了丢失图像的特征信息。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
本发明通过对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,最终得到视差图。利用空洞空间金字塔池化的方法,在神经网络上用不同大小的扩张率抓取图像中多尺度的信息,再采用堆叠的方式保存特征图,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免了丢失图像的特征信息。
实验表明本发明所构建的基于空洞空间金字塔池化的立体匹配方法,在处理图像的前景的过程中有着更优秀的表现,并且在一些遮挡区域也能很好的适应处理,对于像素点语义信息的提取准确,可以有效的提升匹配精度。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种基于空洞空间金字塔池化的立体匹配方法,其特征在于,包括以下步骤:
S1:对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
S2:基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
S3:将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
S4:基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
2.根据权利要求1所述的方法,其特征在于,权利要求1所述的方法还包括步骤S5:基于视差回归方法对所述视差图进行精细化。
3.根据权利要求1所述的方法,其特征在于,所述步骤S1中的特征提取使用了3个3×3的卷积核。
4.根据权利要求1所述的方法,其特征在于,在进行所述特征提取前,还包括将左视图和右视图下采样为原来图像尺寸的1/2。
5.根据权利要求1所述的方法,其特征在于,所述使用卷积神经网络进行特征提取包括:对所述左视图和右视图分别在每一个卷积操作结束后,添加批次归一化层和ReLU层。
6.根据权利要求1所述的方法,其特征在于,所述空洞卷积和空间金字塔池化方法具体包括:利用并行的扩张率不同的多个空洞卷积和一个平均池化对所述左视点特征图的像素的上下文信息进行多次提取,同时利用所述多个空洞卷积和一个平均池化对所述右视点特征图的像素的上下文信息进行多次提取。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至9中任一项所述的方法。
11.一种基于空洞空间金字塔池化的立体匹配***,其特征在于,包括:
视点图像特征提取模块:配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
空洞空间金字塔池化模块:配置用于基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
匹配代价容器构建模块:配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
3D卷积模块:配置用于基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
12.根据权利要求11所述的***,其特征在于,还包括:
视差回归模块:配置用于基于视差回归方法对所述视差图进行精细化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110461480.1A CN112991422A (zh) | 2021-04-27 | 2021-04-27 | 一种基于空洞空间金字塔池化的立体匹配方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110461480.1A CN112991422A (zh) | 2021-04-27 | 2021-04-27 | 一种基于空洞空间金字塔池化的立体匹配方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112991422A true CN112991422A (zh) | 2021-06-18 |
Family
ID=76340433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110461480.1A Pending CN112991422A (zh) | 2021-04-27 | 2021-04-27 | 一种基于空洞空间金字塔池化的立体匹配方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991422A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393366A (zh) * | 2021-06-30 | 2021-09-14 | 北京百度网讯科技有限公司 | 双目匹配方法、装置、设备以及存储介质 |
CN115937217A (zh) * | 2023-03-09 | 2023-04-07 | 安格利(成都)仪器设备有限公司 | 一种利用3d卷积和相关性算子来自动检测腐蚀坑的方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308719A (zh) * | 2018-08-31 | 2019-02-05 | 电子科技大学 | 一种基于三维卷积的双目视差估计方法 |
CN110070574A (zh) * | 2019-04-29 | 2019-07-30 | 优乐圈(武汉)科技有限公司 | 一种基于改进PSMNet的双目视觉立体匹配算法 |
CN110533712A (zh) * | 2019-08-26 | 2019-12-03 | 北京工业大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN111696148A (zh) * | 2020-06-17 | 2020-09-22 | 中国科学技术大学 | 基于卷积神经网络的端到端立体匹配方法 |
CN111833386A (zh) * | 2020-07-22 | 2020-10-27 | 中国石油大学(华东) | 一种基于多尺度信息和注意力机制的金字塔双目立体匹配方法 |
CN111914853A (zh) * | 2020-07-17 | 2020-11-10 | 三峡大学 | 一种用于立体匹配的特征提取方法 |
CN112150521A (zh) * | 2020-08-24 | 2020-12-29 | 江苏大学 | 一种基于PSMNet优化的图像立体匹配方法 |
CN112365586A (zh) * | 2020-11-25 | 2021-02-12 | 厦门瑞为信息技术有限公司 | 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法 |
CN112435282A (zh) * | 2020-10-28 | 2021-03-02 | 西安交通大学 | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 |
-
2021
- 2021-04-27 CN CN202110461480.1A patent/CN112991422A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308719A (zh) * | 2018-08-31 | 2019-02-05 | 电子科技大学 | 一种基于三维卷积的双目视差估计方法 |
CN110070574A (zh) * | 2019-04-29 | 2019-07-30 | 优乐圈(武汉)科技有限公司 | 一种基于改进PSMNet的双目视觉立体匹配算法 |
CN110533712A (zh) * | 2019-08-26 | 2019-12-03 | 北京工业大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN111696148A (zh) * | 2020-06-17 | 2020-09-22 | 中国科学技术大学 | 基于卷积神经网络的端到端立体匹配方法 |
CN111914853A (zh) * | 2020-07-17 | 2020-11-10 | 三峡大学 | 一种用于立体匹配的特征提取方法 |
CN111833386A (zh) * | 2020-07-22 | 2020-10-27 | 中国石油大学(华东) | 一种基于多尺度信息和注意力机制的金字塔双目立体匹配方法 |
CN112150521A (zh) * | 2020-08-24 | 2020-12-29 | 江苏大学 | 一种基于PSMNet优化的图像立体匹配方法 |
CN112435282A (zh) * | 2020-10-28 | 2021-03-02 | 西安交通大学 | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 |
CN112365586A (zh) * | 2020-11-25 | 2021-02-12 | 厦门瑞为信息技术有限公司 | 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393366A (zh) * | 2021-06-30 | 2021-09-14 | 北京百度网讯科技有限公司 | 双目匹配方法、装置、设备以及存储介质 |
CN113393366B (zh) * | 2021-06-30 | 2024-07-02 | 上饶市纯白数字科技有限公司 | 双目匹配方法、装置、设备以及存储介质 |
CN115937217A (zh) * | 2023-03-09 | 2023-04-07 | 安格利(成都)仪器设备有限公司 | 一种利用3d卷积和相关性算子来自动检测腐蚀坑的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270249B (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
Huang et al. | Indoor depth completion with boundary consistency and self-attention | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
US11348270B2 (en) | Method for stereo matching using end-to-end convolutional neural network | |
CN110517306B (zh) | 一种基于深度学习的双目深度视觉估计的方法和*** | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
CN112734915A (zh) | 一种基于深度学习的多视角立体视觉三维场景重建方法 | |
CN109344818B (zh) | 一种基于深度卷积网络的光场显著目标检测方法 | |
CN112991422A (zh) | 一种基于空洞空间金字塔池化的立体匹配方法及*** | |
CN110070574A (zh) | 一种基于改进PSMNet的双目视觉立体匹配算法 | |
CN113762267B (zh) | 一种基于语义关联的多尺度双目立体匹配方法及装置 | |
CN111508013A (zh) | 立体匹配方法 | |
CN115830406A (zh) | 一种基于多视差尺度的快速光场深度估计方法 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 | |
CN115909268A (zh) | 一种动态障碍物检测方法及装置 | |
CN113610905A (zh) | 基于子图像匹配的深度学习遥感图像配准方法及应用 | |
CN116883588A (zh) | 一种大场景下的三维点云快速稠密重建方法及*** | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计*** | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
Huang et al. | ES-Net: An efficient stereo matching network | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210618 |