CN117152580A - 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法 - Google Patents

双目立体视觉匹配网络构建方法及双目立体视觉匹配方法 Download PDF

Info

Publication number
CN117152580A
CN117152580A CN202310965320.XA CN202310965320A CN117152580A CN 117152580 A CN117152580 A CN 117152580A CN 202310965320 A CN202310965320 A CN 202310965320A CN 117152580 A CN117152580 A CN 117152580A
Authority
CN
China
Prior art keywords
image
parallax
edge
matching network
scale features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310965320.XA
Other languages
English (en)
Inventor
李丹
张珍
杨兆成
洪健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310965320.XA priority Critical patent/CN117152580A/zh
Publication of CN117152580A publication Critical patent/CN117152580A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了双目立体视觉匹配网络构建方法及双目立体视觉匹配方法,属于双目立体视觉匹配领域,包括:收集左图、右图及相应的视差图构建数据集后,对待训练的立体匹配网络进行训练和测试,得到双目立体视觉匹配网络;立体匹配网络包括:视差边缘预测分支,用于对图像进行视差边缘预测;以及视差估计主干网络,包括:代价立方体构建子网络,用于构建代价立方体;代价聚合模块,用于对代价立方体进行正则化,得到聚合代价体;聚合代价优化模块,用于按照参考图像的视差边缘预测图抑制聚合代价体的边缘区域;以及视差回归模块,用于对优化后的聚合代价体上采样后回归,得到视差图。本发明能准确实现边缘和遮挡区域的匹配,提高匹配精度和可靠性。

Description

双目立体视觉匹配网络构建方法及双目立体视觉匹配方法
技术领域
本发明属于双目立体视觉匹配领域,更具体地,涉及双目立体视觉匹配网络构建方法及双目立体视觉匹配方法。
背景技术
立体视觉在计算机视觉中扮演了重要角色,在实际应用中,双目立体视觉技术成为了当前现有的重点和热点。双目立体视觉的本质就是通过两个摄像机在同一个环境下获取物体的二维平面图像,即左图和右图,并通过二维平面图像信息提取空间三维信息,实现对物体形状、大小和位置等方面的理解,因此广泛地应用于机器人导航、非接触式测量,医学影像处理、三维重建等领域。
立体视觉匹配的主要目的是对双目相机拍摄的两张图像找到一对一的对应点,对其进行匹配,从而得到对应点的视差,在匹配过程中,通常会把左图当做参考图像,将右图作为待匹配图像对其进行搜索匹配出对应关系。
传统立体匹配采用特征提取算法通常只能识别简单的形状和纹理特征,不能很好地处理复杂的场景和光照变化等问题,导致在实际应用中的性能表现不佳。随着深度学习的发展和大数据的支撑,立体匹配的性能有了很大提升。但是,在复杂多变的实际场景下,当前的立体视觉技术往往难以准确实现边缘和遮挡区域的匹配,因此存在着精度和可靠性方面的不足。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了双目立体视觉匹配网络构建方法及双目立体视觉匹配方法,其目的在于,引入视差边缘信息指导双目立体视觉匹配,使得在复杂多变的实际场景下也能准确实现边缘和遮挡区域的匹配,提高匹配精度和可靠性。
为实现上述目的,按照本发明的一个方面,提供了一种双目立体视觉匹配网络构建方法,包括:
收集左图、右图及相应的视差图构建数据集,建立待训练的立体匹配网络后,利用数据集对待训练的立体匹配网络进行训练和测试,得到用于估计左图和右图间视差图的双目立体视觉匹配网络;
立体匹配网络包括:视差边缘预测分支和视差估计主干网络;
视差边缘预测分支用于对图像进行视差边缘预测,得到相应的视差边缘预测图;
视差估计主干网络包括:
代价立方体构建子网络,用于构建待匹配的左图和右图之间的代价立方体;待匹配的左图和右图中,一幅为参考图像,另一幅为待匹配图像;
代价聚合模块,用于对代价立方体进行正则化,得到聚合代价体;
聚合代价优化模块,用于按照视差边缘预测分支预测输出的参考图像的视差边缘预测图识别聚合代价体的边缘区域并进行抑制,得到优化后的聚合代价体;
以及视差回归模块,用于将优化后的聚合代价体上采样至与参考图像尺寸一致后对其进行回归,得到视差图。
进一步地,聚合代价优化模块按照如下公式对聚合代价体的边缘区域进行抑制:
Cnew(x,y)=C(x,y)×(2-P(x,y))
其中,Cnew为优化后的聚合代价体,C为聚合代价体,P为参考图像的视差边缘预测图,(x,y)表示像素坐标。
进一步地,代价立方体构建子网络包括:
左图低尺度特征提取模块,用于对左图进行原尺度特征提取,得到左图的低尺度特征;
左图高尺度特征提取模块,用于对左图的低尺度特征进行空间金字塔池化操作,得到左图的高尺度特征;
左图特征融合模块,用于将左图的低尺度特征和高尺度特征进行加权融合,得到左图的融合特征;融合时,低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,边缘区域和非边缘区域依据视差边缘预测分支预测输出的左图的视差边缘预测图确定;
右图低尺度特征提取模块,用于对右图进行原尺度特征提取,得到右图的低尺度特征;
右图高尺度特征提取模块,用于对右图的低尺度特征进行空间金字塔池化操作,得到右图的高尺度特征;
右图特征融合模块,用于将右图的低尺度特征和高尺度特征进行加权融合,得到右图的融合特征;融合时,低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,边缘区域和非边缘区域依据视差边缘预测分支预测输出的右图的视差边缘预测图确定;
以及代价体构建模块,用于按照预定的最大视差值,在每个视差水平上将左图的融合特征和右图的融合特征进行连接,得到左图和右图之间的代价立方体。
进一步地,左图特征融合模块按照如下公式将左图的低尺度特征和高尺度特征进行加权融合:
右图特征融合模块按照如下公式将右图的低尺度特征和高尺度特征进行加权融合:
其中,Fnew_l和Fnew_r分别表示左图和右图的融合特征,Flow_l和Flow_r分别表示左图和右图的低尺度特征,Fhigh_l和Fhigh_r分别表示左图和右图的高尺度特征,Pl和Pr分别表示左图和右图的视差边缘预测图,(x,y)表示像素坐标。
进一步地,视差边缘预测分支包括:
2D卷积模块,用于提取输入图像的浅层特征;
多尺度特征提取模块,用于对浅层特征执行不同尺度的空间金字塔池化操作,得到多个尺度的深层特征;
上采样模块,用于将各个尺度下的深层特征上采样至与输入图像尺寸一致;
特征融合模块,用于将上采样模块输出的各个特征图级联后进行卷积操作,得到单通道的边缘特征;
以及边缘回归模块,用于将边缘特征中的像素值回归到[0,1]范围内,得到视差边缘预测图。
进一步地,利用数据集对待训练的立体匹配网络进行训练和测试,包括:
对数据集中的视差图进行边缘检测,得到视差边缘图,与对应左图和右图构成边缘检测样本集;
利用边缘检测样本集对立体匹配网络中的视差边缘预测分支进行训练和测试;
冻结立体匹配网络中视差边缘预测分支的参数,利用数据集对立体匹配网络进行训练和测试,得到双目立体视觉匹配网络。
进一步地,利用边缘检测样本集对立体匹配网络中的视差边缘预测分支进行训练时,采用加权交叉熵损失函数。
进一步地,冻结立体匹配网络中视差边缘预测分支的参数,利用数据集对立体匹配网络进行训练时,采用基于视差的smooth L1损失函数。
按照本发明的又一个方面,提供了一种双目立体视觉匹配方法,包括:
将待匹配的左图和右图输入至双目立体视觉匹配网络,由双目立体视觉匹配网络输出左图和右图之间的视差图;
将左图和右图之间的视差图转换为深度图,完成匹配;
其中,双目立体视觉匹配网络由本发明提供的上述双目立体视觉匹配网络构建方法建立所得。
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序,计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行本发明提供的上述双目立体视觉匹配网络构建方法,和/或,本发明提供的上述双目立体视觉匹配方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所建立的双目立体视觉匹配网络,在视差估计主干网络的基础上引入了视差边缘预测分支,用于预测边缘信息,并基于所预测的边缘信息引导视差估计主干网络的代价聚合阶段,削弱边缘处的代价体,以减少由于遮挡而造成的错误匹配计算,改善了边缘和遮挡区域匹配困难的问题,使得在复杂多变的环境下也能准确实现包括边缘和遮挡区域在内的匹配,有效提高双目立体视觉匹配的精度和可靠性。
(2)在本发明的优选方案中,本发明进一步基于视差边缘预测分支所预测的边缘信息引导视差估计主干网络的特征提取阶段,具体地,基于边缘信息对低尺度和高尺度特征分配权重进行融合,使得低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,由此加强边缘处的低尺度特征和非边缘处的高尺度特征,充分利用低尺度特征所携带的丰富的边缘信息,进一步提高边缘处的匹配精度。
(3)在本发明的优选方案中,对立体匹配网络进行训练时,先对其中的视差边缘预测分支进行训练,之后在训练好的视差边缘预测分支的基础上,完成视差估计主干网络的训练,由此能够利用准确的边缘信息指导视差估计主干网络的训练过程,提高训练效率。
附图说明
图1为本发明实施例提供的双目立体视觉匹配网络的结构示意图;
图2为本发明实施例提供的视差边缘预测分支示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了提高双目立体视觉匹配的精度和可靠性,本发明提供了双目立体视觉匹配网络构建方法及双目立体视觉匹配方法,其整体思路在于:对匹配网络结构进行改进,以引入边缘信息指导双目立体视觉匹配,使得复杂多变环境下,也能准确实现边缘及遮挡区域的匹配,从而提高双目立体视觉匹配的精度和可靠性。
基于以上构思,本发明进一步分析双目立体视觉匹配的具体过程发现,在视差边缘预测的基础上,利用边缘信息对双目图像的特征提取和代价聚合过程进行指导,可以有效提高匹配精度和可靠性。实验结果进一步表明,利用边缘信息对代价聚合进行指导,其效果更为显著。基于此,在实际应用中,基于具体的精度和可靠性要求,可选择性地对特征提取过程进行改进,或者对代价聚合过程进行改进,或者同时对两个过程都进行改进。
以下为实施例。
实施例1:
一种双目立体视觉匹配网络构建方法,包括:
收集左图、右图及相应的视差图构建数据集,建立待训练的立体匹配网络后,利用数据集对待训练的立体匹配网络进行训练和测试,得到用于估计左图和右图间视差图的双目立体视觉匹配网络。
可选地,本实施例中,构建数据集的数据具体来源于SceneFlow和KITTIStereo。为便于网络输入,本实施例将数据集中的图像均裁剪为256×512大小。
本实施例所构建的立体匹配网络如图1所示,本实施例在传统网络的基础上,引入了视差边缘预测分支,并在特征提取部分和代价聚合部分加入相应的模块以引入视差边缘预测分支预测得到的边缘信息。相应地,本实施例中,立体匹配网络包括:
视差边缘预测分支和视差估计主干网络。
立体匹配网络中,视差边缘预测分支用于对图像进行视差边缘预测,得到相应的视差边缘预测图。本实施例中,视差边缘预测分支的结构如图2所示,包括:
2D卷积模块,用于对输入图像进行多次卷积,以提取输入图像的浅层特征;
多尺度特征提取模块,用于对浅层特征执行4个不同尺度的空间金字塔池化操作,得到4个尺度的深层特征;空间金字塔池化(spatial pyramid pooling,SPP),接入卷积层之后,可以让网络输入任意的图片,而且还会生成固定大小的输出;
上采样模块,用于将各个尺度下的深层特征上采样至与输入图像尺寸一致;
特征融合模块,用于将上采样模块输出的各个特征图级联后进行卷积操作,得到单通道的边缘特征;
以及边缘回归模块,用于通过sigmoid回归函数将边缘特征中的像素值回归到[0,1]范围内,得到视差边缘预测图。
如图1所示,本实施例中,视差估计主干网络包括:
代价立方体构建子网络,用于构建待匹配的左图和右图之间的代价立方体;
待匹配的左图和右图中,一幅为参考图像,另一幅为待匹配图像;本实施例中,具体以左图为参考图像,以右图为待匹配图像;
如图1所示,代价立方体构建子网络具体包括:
左图低尺度特征提取模块,用于对左图进行原尺度特征提取,得到左图的低尺度特征;
左图高尺度特征提取模块,用于对左图的低尺度特征进行空间金字塔池化操作,得到左图的高尺度特征;
左图特征融合模块,用于将左图的低尺度特征和高尺度特征进行加权融合,得到左图的融合特征;融合时,低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,边缘区域和非边缘区域依据视差边缘预测分支预测输出的左图的视差边缘预测图确定;
右图低尺度特征提取模块,用于对右图进行原尺度特征提取,得到右图的低尺度特征;
右图高尺度特征提取模块,用于对右图的低尺度特征进行空间金字塔池化操作,得到右图的高尺度特征;
右图特征融合模块,用于将右图的低尺度特征和高尺度特征进行加权融合,得到右图的融合特征;融合时,低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,边缘区域和非边缘区域依据视差边缘预测分支预测输出的右图的视差边缘预测图确定;
以及代价体构建模块,用于按照预定的最大视差值,在每个视差水平上将左图的融合特征和右图的融合特征进行连接,得到左图和右图之间的代价立方体;该代价立方体为“图像宽×图像高×视差×特征维度”的4D空间代价体。
在双目立体匹配中,边缘处的匹配误差往往较大,传统的匹配方法往往在提取到图像的高尺度特征后,直接以高尺度特征构建代价立方体,而在提取高尺度特征的过程中,会丢失部分边缘处的细节信息,这会影响最终的匹配精度;本实施例将低尺度特征高尺度特征融合,并基于视差边缘预测分支的预测结果分配融合权值,使得低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,由此加强边缘处的低尺度特征和非边缘处的高尺度特征,由于低尺度特征能够较好地保留边缘处信息,因此,本实施例能够充分利用低尺度特征所携带的边缘信息,有效提高边缘处的匹配精度。
可选地,本实施例中,左图低尺度特征提取模块、左图高尺度特征提取模块、右图低尺度特征提取模块以及右图高尺度特征提取模块与PSMNet模型中的结构相同。
左图低尺度特征提取模块和右图低尺度特征提取模块具体为共享权值的卷积神经网络,该卷积神经网络的前3层是标准卷积层,卷积核大小是3×3,通道数是32,步长是2,将图像大小下采样到原输入的一半。随后是四个残差层,第一个残差层有3个残差块,第二个残差层有16个残差块,并且将原本图像下采样到原来的一半,第三个残差层有3个残差块,选用了扩张率为2的空洞卷积,第四个残差层有3个残差块,选用了扩张率为4的空洞卷积。四个残差层的卷积核均为3×3。经过上述卷积操作后,提取到低尺度的图像特征。
左图高尺度特征提取模块和右图高尺度特征提取模块具体为空间金字塔池化模块,其中包含4个固定大小的平均池化层,其大小分别:64×64,32×32,16×16和8×8。接着分别使用1×1的卷积来降低特征维数。之后通过双线性插值将低维特征上采样到原始特征图大小。将四个尺度的特征以及上述残差层中的第二层和第四层输出的特征进行融合,从而得到高尺度特征图。
基于所提取的低尺度特征图和高尺度特征图,本实施例中,左图特征融合模块按照如下公式将左图的低尺度特征和高尺度特征进行加权融合:
右图特征融合模块按照如下公式将右图的低尺度特征和高尺度特征进行加权融合:
其中,Fnew_l和Fnew_r分别表示左图和右图的融合特征,Flow_l和Flow_r分别表示左图和右图的低尺度特征,Fhigh_l和Fhigh_r分别表示左图和右图的高尺度特征,Pl和Pr分别表示左图和右图的视差边缘预测图,(x,y)表示像素坐标;×表示乘法,⊕表示级联。
基于以上融合公式,本实施例能够基于视差边缘预测分支的预测结果有效加强边缘处的低尺度特征和非边缘处的高尺度特征。
如图1所示,本实施例中,视差估计主干网络在代价立方体构建子网络之后还包括:
代价聚合模块,用于对代价立方体进行正则化,得到聚合代价体;
聚合代价优化模块,用于按照视差边缘预测分支预测输出的参考图像的视差边缘预测图识别聚合代价体的边缘区域并进行抑制,得到优化后的聚合代价体;
以及视差回归模块,用于将优化后的聚合代价体上采样至与参考图像尺寸一致后对其进行回归,得到视差图。
本实施例中,聚合代价优化模块基于视差边缘预测分支的预测结果对聚合代价体的边缘区域进行抑制,能够削弱边缘处的代价体,减少由于遮挡而造成错误匹配计算,改善边缘和遮挡区域匹配困难的问题。
可选地,本实施例中,聚合代价优化模块按照如下公式对所述聚合代价体的边缘区域进行抑制:
Cnew(x,y)=C(x,y)×(2-P(x,y))
其中,Cnew为优化后的聚合代价体,C为聚合代价体,P为参考图像的视差边缘预测图,(x,y)表示像素坐标;基于上述公式,本实施例在对代价体的边缘区域进行一致的同时,对非边缘区域进行了增强。
可选地,本实施例中,代价聚合模块和视差回归模块与PSMNet中的相关结构类似,具体地,代价聚合模块采用堆叠沙漏3D卷积结构,其中包括三个沙漏网络;视差回归模块,对每个沙漏网络的输出分别进行双线性插值即可得到与参考图像尺寸一致,即W×H×D,其中,W和H代表图像的宽高,D代表视差数;之后,对于每一个像素点的每个可能的视差d,根据上述聚合代价体得到其匹配代价Cd,使用softmax操作σ(·)计算概率。根据概率进行加权求和计算最终的视差预测值其公式为:
其中,Dmax表示预设的最大视差。
本实施例构建好数据集,并构建好待训练的立体匹配网络后,进行训练时,首先对立体匹配网络中的视差边缘预测分支进行训练,其训练方式如下:
利用canny、hed等边缘检测算法对所述数据集中的视差图进行边缘检测,得到视差边缘图,与对应左图和右图构成边缘检测样本集;
利用所述边缘检测样本集对所述立体匹配网络中的视差边缘预测分支进行训练和测试。
对视差边缘预测分支进行训练时,采用加权交叉熵损失函数。其权重设置公式如下:
其中,weightpixel为每个像素点对应的权重,numpos是被视为边缘区域的像素的总数,这里取像素值大于0.5的为边缘区域像素,numneg是被视为非边缘区域的像素的总数,即像素值小于0.5的像素的个数。各点的像素值来自边缘回归估计视差边缘预测图。
在视差边缘预测分支训练完成之后,本实施例进一步对视差预测主干网络进行训练,具体方式如下:
冻结立体匹配网络中视差边缘预测分支的参数,利用数据集对立体匹配网络进行训练和测试,得到双目立体视觉匹配网络;对视差预测主干网络进行训练时,采用基于视差的smooth L1损失函数,其公式如下:
其中,N表示像素的个数,d表示视差真值,是网络输出的视差预测值。
由于本实施例中,代价聚合模块使用沙漏堆叠结构,每个沙漏结构均计算损失函数,总损失为三者的加权平均,根据PSMNet基准模型,三个沙漏结构的损失函数的权重参数依次设置为Wdips-loss1=0.5、Wdips-loss2=0.7、Wdips-loss3=1。只以最后一个沙漏结构的聚合代价经过视差回归得到的视差图作为最终结果。
以上训练过程的参数设置具体如下:
改进模型基于PyTorch实现,使用β1=0.9和β2=0.999的Adam优化器训练模型。针对KITTIStereo数据集,每一轮训练的批大小设置为2,最大视差设置为192。
首先在SceneFlow数据集中对边缘分支和视差主干进行40轮训练,边缘分支的学习率为1E-7,视差主干前15轮预训练,学习率为0.001,后25轮学习率为0.0005。模型训练完成后在KITTIStereo数据集上微调,将训练集按照5:1的比例划分,分别用于训练和测试,共训练300轮,初始学习率为0.001,后200轮学习率为0.0001。
实施例2:
一种双目立体视觉匹配网络构建方法。本实施例与上述实施例1类似,所不同之处在于,本实施例中,视差估计主干网络中,代价立方体构建子网络与PMSNet模型一致,即,直接依据空间金字塔池化操作提取的高尺度特征构建代价立方体,而没有左图特征融合模块和右图特征融合模块。
网络中的其余结构可参考上述实施例1的描述;数据集的构建,以及模型训练的具体方式,也可参考上述实施例1的描述,在此将不做复述。
实施例3:
一种双目立体视觉匹配方法,包括:
将待匹配的左图和右图输入至双目立体视觉匹配网络,由双目立体视觉匹配网络输出左图和右图之间的视差图;
将左图和右图之间的视差图转换为深度图,完成匹配;
其中,双目立体视觉匹配网络由上述实施例1或2提供的双目立体视觉匹配网络构建方法建立所得。
实施例4:
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序,计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行上述实施例1或2提供的双目立体视觉匹配网络构建方法,和/或,上述实施例3提供的双目立体视觉匹配方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种双目立体视觉匹配网络构建方法,其特征在于,包括:
收集左图、右图及相应的视差图构建数据集,建立待训练的立体匹配网络后,利用所述数据集对所述待训练的立体匹配网络进行训练和测试,得到用于估计左图和右图间视差图的双目立体视觉匹配网络;
所述立体匹配网络包括:视差边缘预测分支和视差估计主干网络;
所述视差边缘预测分支用于对图像进行视差边缘预测,得到相应的视差边缘预测图;
所述视差估计主干网络包括:
代价立方体构建子网络,用于构建待匹配的左图和右图之间的代价立方体;待匹配的左图和右图中,一幅为参考图像,另一幅为待匹配图像;
代价聚合模块,用于对所述代价立方体进行正则化,得到聚合代价体;
聚合代价优化模块,用于按照所述视差边缘预测分支预测输出的参考图像的视差边缘预测图识别所述聚合代价体的边缘区域并进行抑制,得到优化后的聚合代价体;
以及视差回归模块,用于将所述优化后的聚合代价体上采样至与所述参考图像尺寸一致后对其进行回归,得到视差图。
2.如权利要求1所述的双目立体视觉匹配网络构建方法,其特征在于,所述聚合代价优化模块按照如下公式对所述聚合代价体的边缘区域进行抑制:
Cnew(x,y)=C(x,y)×(2-P(x,y))
其中,Cnew为优化后的聚合代价体,C为聚合代价体,P为参考图像的视差边缘预测图,(x,y)表示像素坐标。
3.如权利要求1所述的双目立体视觉匹配网络构建方法,其特征在于,所述代价立方体构建子网络包括:
左图低尺度特征提取模块,用于对左图进行原尺度特征提取,得到左图的低尺度特征;
左图高尺度特征提取模块,用于对左图的低尺度特征进行空间金字塔池化操作,得到左图的高尺度特征;
左图特征融合模块,用于将左图的低尺度特征和高尺度特征进行加权融合,得到左图的融合特征;融合时,低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,边缘区域和非边缘区域依据所述视差边缘预测分支预测输出的左图的视差边缘预测图确定;
右图低尺度特征提取模块,用于对右图进行原尺度特征提取,得到右图的低尺度特征;
右图高尺度特征提取模块,用于对右图的低尺度特征进行空间金字塔池化操作,得到右图的高尺度特征;
右图特征融合模块,用于将右图的低尺度特征和高尺度特征进行加权融合,得到右图的融合特征;融合时,低尺度特征在边缘区域具有较高的权重,高尺度特征在非边缘区域具有较高的权重,边缘区域和非边缘区域依据所述视差边缘预测分支预测输出的右图的视差边缘预测图确定;
以及代价体构建模块,用于按照预定的最大视差值,在每个视差水平上将左图的融合特征和右图的融合特征进行连接,得到左图和右图之间的代价立方体。
4.如权利要求3所述的双目立体视觉匹配网络构建方法,其特征在于,所述左图特征融合模块按照如下公式将左图的低尺度特征和高尺度特征进行加权融合:
所述右图特征融合模块按照如下公式将右图的低尺度特征和高尺度特征进行加权融合:
其中,Fnew_l和Fnew_r分别表示左图和右图的融合特征,Flow_l和Flow_r分别表示左图和右图的低尺度特征,Fhigh_l和Fhigh_r分别表示左图和右图的高尺度特征,Pl和Pr分别表示左图和右图的视差边缘预测图,(x,y)表示像素坐标;×表示乘法,表示级联。
5.如权利要求1~4任一项所述的双目立体视觉匹配网络构建方法,其特征在于,所述视差边缘预测分支包括:
2D卷积模块,用于提取输入图像的浅层特征;
多尺度特征提取模块,用于对所述浅层特征执行不同尺度的空间金字塔池化操作,得到多个尺度的深层特征;
上采样模块,用于将各个尺度下的深层特征上采样至与输入图像尺寸一致;
特征融合模块,用于将上采样模块输出的各个特征图级联后进行卷积操作,得到单通道的边缘特征;
以及边缘回归模块,用于将所述边缘特征中的像素值回归到[0,1]范围内,得到视差边缘预测图。
6.如权利要求1~4任一项所述的双目立体视觉匹配网络构建方法,其特征在于,利用所述数据集对所述待训练的立体匹配网络进行训练和测试,包括:
对所述数据集中的视差图进行边缘检测,得到视差边缘图,与对应左图和右图构成边缘检测样本集;
利用所述边缘检测样本集对所述立体匹配网络中的视差边缘预测分支进行训练和测试;
冻结所述立体匹配网络中视差边缘预测分支的参数,利用所述数据集对所述立体匹配网络进行训练和测试,得到双目立体视觉匹配网络。
7.如权利要求6所述的双目立体视觉匹配网络构建方法,其特征在于,利用所述边缘检测样本集对所述立体匹配网络中的视差边缘预测分支进行训练时,采用加权交叉熵损失函数。
8.如权利要求6所述的双目立体视觉匹配网络构建方法,其特征在于,冻结所述立体匹配网络中视差边缘预测分支的参数,利用所述数据集对所述立体匹配网络进行训练时,采用基于视差的smooth L1损失函数。
9.一种双目立体视觉匹配方法,其特征在于,包括:
将待匹配的左图和右图输入至双目立体视觉匹配网络,由所述双目立体视觉匹配网络输出所述左图和所述右图之间的视差图;
将所述左图和所述右图之间的视差图转换为深度图,完成匹配;
其中,所述双目立体视觉匹配网络由权利要求1~8任一项所述的双目立体视觉匹配网络构建方法建立所得。
10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序,所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1~8任一项所述的双目立体视觉匹配网络构建方法,和/或,权利要求9所述的双目立体视觉匹配方法。
CN202310965320.XA 2023-08-02 2023-08-02 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法 Pending CN117152580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310965320.XA CN117152580A (zh) 2023-08-02 2023-08-02 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310965320.XA CN117152580A (zh) 2023-08-02 2023-08-02 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法

Publications (1)

Publication Number Publication Date
CN117152580A true CN117152580A (zh) 2023-12-01

Family

ID=88899662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310965320.XA Pending CN117152580A (zh) 2023-08-02 2023-08-02 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法

Country Status (1)

Country Link
CN (1) CN117152580A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593283A (zh) * 2023-12-07 2024-02-23 暗物质(北京)智能科技有限公司 一种生成式双目立体匹配方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593283A (zh) * 2023-12-07 2024-02-23 暗物质(北京)智能科技有限公司 一种生成式双目立体匹配方法

Similar Documents

Publication Publication Date Title
CN109472819B (zh) 一种基于级联几何上下文神经网络的双目视差估计方法
US20210042954A1 (en) Binocular matching method and apparatus, device and storage medium
CN109598754B (zh) 一种基于深度卷积网络的双目深度估计方法
CN111259945B (zh) 引入注意力图谱的双目视差估计方法
CN112150521B (zh) 一种基于PSMNet优化的图像立体匹配方法
CN111915660B (zh) 基于共享特征和注意力上采样的双目视差匹配方法及***
CN113592026B (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN113743269B (zh) 一种轻量化识别视频人体姿态的方法
CN111260707B (zh) 一种基于光场epi图像的深度估计方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、***
CN113705796B (zh) 基于epi特征强化的光场深度获取卷积神经网络
CN112509021B (zh) 一种基于注意力机制的视差优化方法
CN117152580A (zh) 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法
CN111553296B (zh) 一种基于fpga实现的二值神经网络立体视觉匹配方法
CN112991254A (zh) 视差估计***、方法、电子设备及计算机可读存储介质
CN116258758A (zh) 基于注意力机制和多级代价体的双目深度估计方法及***
CN115511759A (zh) 一种基于级联特征交互的点云图像深度补全方法
CN113887568B (zh) 一种各向异性卷积的双目图像立体匹配方法
CN214587004U (zh) 一种立体匹配加速电路、图像处理器及三维成像电子设备
CN113034666B (zh) 一种基于金字塔视差优化代价计算的立体匹配方法
CN113538402A (zh) 一种基于密度估计的人群计数方法及***
CN110060290B (zh) 一种基于3d卷积神经网络的双目视差计算方法
CN115546279A (zh) 基于分组混合的两阶段实时双目深度估计方法及装置
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN113887536A (zh) 一种基于高层语义引导的多阶段高效人群密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination