CN116630388A - 基于深度学习的热成像图像双目视差估计方法及*** - Google Patents
基于深度学习的热成像图像双目视差估计方法及*** Download PDFInfo
- Publication number
- CN116630388A CN116630388A CN202310913387.9A CN202310913387A CN116630388A CN 116630388 A CN116630388 A CN 116630388A CN 202310913387 A CN202310913387 A CN 202310913387A CN 116630388 A CN116630388 A CN 116630388A
- Authority
- CN
- China
- Prior art keywords
- feature map
- feature
- binocular
- image
- matching cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001931 thermography Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 230000002776 aggregation Effects 0.000 claims description 41
- 238000004220 aggregation Methods 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 23
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 20
- 238000010276 construction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 91
- 238000005070 sampling Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000008447 perception Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于深度学习的热成像图像双目视差估计方法及***,所述方法可以在获取到双目热成像图像后,提取双目热成像图像的初始特征图,按照预设尺度获取初始特征图的尺度特征图,以及合并尺度特征图与初始特征图,以得到双目特征图。再构造双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并互相关匹配代价卷和级联匹配代价卷,以得到总匹配代价卷,对总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图,并根据多种网络深度的聚合特征图生成视差图。所述方法可以从不同视角的热成像图像中有效提取出特征信息,以生成视差图,提高基于热成像图像获取深度信息的准确性和稳定性。
Description
技术领域
本申请涉及深度学习以及计算机视觉领域,尤其涉及一种基于深度学习的热成像图像双目视差估计方法及***。
背景技术
热成像技术是一种通过检测物体发出的红外辐射来获取物体表面温度分布的非接触测量技术。在多种领域得到广泛的应用,例如,工业、医学、军事和安全等。双目视差估计是一种计算机视觉感知技术,通过分析从不同角度获取的图像,计算出场中物体的深度信息。双目视差估计方法通常基于计算机视觉感知算法,如区域匹配、立体匹配和光流估计等,并使用可见光图像或热成像图像进行双目视差估计。
然而,热成像图像与可见光图像存在一些差异。热成像图像的特殊点包括灰度范围比较凸、图像分类率比较低及纹理信息不清晰等,使得双目视差估计方法无法充分利用热成像图像的特点,进而导致在处理热成像图像时准确性和固定性的限制。同时,在热成像的双目视差估计方面,主要集中在利用计算机视觉算法对热成像图像进行预测处理和特征提取,降低在深度信息获取方面的准确性和稳定性。
发明内容
本申请提供一种基于深度学习的热成像图像双目视差估计方法及***,以解决基于热成像图像获取深度信息的准确性和稳定性低的问题。
第一方面,本申请提供一种基于深度学习的热成像图像双目视差估计方法,其特征在于,包括:
获取双目热成像图像,所述双目热成像图像包括第一图像和第二图像;
提取所述双目热成像图像的初始特征图;
按照预设尺度获取所述初始特征图的尺度特征图,以及合并所述尺度特征图与所述初始特征图,以得到双目特征图,所述双目特征图包括第一特征图和第二特征图;
构造所述双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并所述互相关匹配代价卷和所述级联匹配代价卷,以得到总匹配代价卷,所述互相关匹配代价卷基于特征互相关运算得到,所述级联匹配代价卷基于特征级联得到;
对所述总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图;
根据所述多种网络深度的聚合特征图生成视差图。
第二方面,本申请提供一种基于深度学***均池化模块、匹配代价卷构造模块、三维卷积聚合模块以及视差图生成模块,其中:
图像获取模块,用于获取双目热成像图像,所述双目热成像图像包括第一图像和第二图像;
特征提取模块,用于提取所述双目热成像图像的初始特征图;
多层次平均池化模块,用于按照预设尺度获取所述初始特征图的尺度特征图,以及合并所述尺度特征图与所述初始特征图,以得到双目特征图,所述双目特征图包括第一特征图和第二特征图;
匹配代价卷构造模块,用于构造所述双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并所述互相关匹配代价卷和所述级联匹配代价卷,以得到总匹配代价卷,所述互相关匹配代价卷基于特征互相关运算得到,所述级联匹配代价卷基于特征级联得到;
三维卷积聚合模块,用于对所述总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图;
视差图生成模块,用于根据所述多种网络深度的聚合特征图生成视差图。
由以上技术方案可知,本申请提供一种基于深度学习的热成像图像双目视差估计方法及***,所述方法可以在获取到双目热成像图像后,提取双目热成像图像的初始特征图,按照预设尺度获取初始特征图的尺度特征图,以及合并尺度特征图与初始特征图,以得到双目特征图。再构造双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并互相关匹配代价卷和级联匹配代价卷,以得到总匹配代价卷,对总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图,并根据多种网络深度的聚合特征图生成视差图。所述方法可以从不同视角的热成像图像中有效提取出特征信息,以生成视差图,提高基于热成像图像获取深度信息的准确性和稳定性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的双目视差估计方法的流程示意图;
图2为本申请实施例提供的获取双目特征图的流程示意图;
图3为本申请实施例提供的获取总匹配代价卷的流程示意图;
图4为本申请实施例提供的三维卷积聚合模块的结构示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的***和方法的示例。
双目视差估计是一种计算机视觉感知技术,通过分析从不同角度获取的图像,计算出场中物体的深度信息。双目视差估计方法通常基于计算机视觉感知算法,如区域匹配、立体匹配和光流估计等,并使用可见光图像或热成像图像进行双目视差估计。
然而,热成像图像与可见光图像存在一些差异。热成像图像的特殊点包括灰度范围比较凸、图像分类率比较低及纹理信息不清晰等,使得双目视差估计方法无法充分利用热成像图像的特点,进而导致在处理热成像图像时准确性和固定性的限制。同时,在热成像的双目视差估计方面,主要集中在利用计算机视觉算法对热成像图像进行预测处理和特征提取,使得在深度信息获取方面的准确性和稳定性较低。
为了解决上述问题,本申请部分实施例中提供一种基于深度学***均池化模块、匹配代价卷构造模块、三维卷积聚合模块以及视差图生成模块。图1为本申请实施例提供的双目视差估计方法的流程示意图,如图1所示,本申请提供的双目视差估计方法,包括以下步骤:
S100:获取双目热成像图像。
其中,双目热成像图像包括第一图像和第二图像,第一图像和第二图像分别为同一场景两个视角获取的图像。例如,第一图像和第二图像分别为同一场景左右两个视角获取的且尺寸均为384×1248(H×W)的图像,即高度为384,宽度为1248的图像。需要说明的是,本申请提供的双目视差估计模型的batch-size(一次训练所选的样本数)为1,即可以忽略样本数维度,仅注重特征、视差、高、宽这四个维度。
在一些实施例中,获取到第一图像和第二图像后,可以对第一图像和第二图像进行极线配准,以使第一图像和第二图像上的同名点对位于同一条水平线,即使得第一图像和第二图像只存在列坐标差。并将极线配准后的双目热成像图像作为本申请双目视差估计模型的输入。
S200:提取双目热成像图像的初始特征图。
获取到双目热成像图像之后,可以通过特征提取模块提取出双目热成像图像的特征信息。其中,特征提取模块包括多层预设尺寸的卷积核以及多组残差块,将双目热成像图像输入多层预设尺寸的卷积核,再将多层预设尺寸的卷积核输出的特征图依次输入多组残差块,以得到初始特征图,其中,多组残差块包括用于加深特征提取网络深度的残差块以及应用扩张卷积增大感受野的残差块。
示例性的,尺寸均为384×1248(H×W)的第一图像和第二图像,经过极线配准后的图像输入尺寸为384×1248×3(3为RGB特征维度)。对极线配准后的第一图像和第二图像进行特征提取,以生成初始特征图。首先,将第一图像和第二图像输入三层尺寸为3×3的卷积核,以扩张特征维度,输出尺寸为192×624×32的特征图。
可以理解的是,本申请提供的特征提取模块抛弃了大卷积核(例如尺寸为7×7),而是先采用由三层尺寸为3×3的小卷积核组成的深度网络,其中,第一层卷积核的步长可以为2,即可使得高宽减半,同时其可以与单层尺寸为7×7的卷积核获取到相同大小的感受野,并且在增大网络容量的基础上有效减少参数个数,提高效率,同时增加特征维度输出通道。
然后,将192×624×32的特征图经过四组提取一元特征信息的残差块conv1_3、conv2_16、conv3_3、conv4_3。
其中,第一组残差块conv1_3的网络为,步长为1,输出维度为192×624×32;
第二组残差块conv2_16的网络为,步长为2,特征维度加倍且高宽减半,加深特征提取网络深度,输出维度为96×312×64;
第三组残差块conv3_3和第四组残差块conv4_3均应用扩张卷积,其网络均为,可以进一步增大感受野。
扩张系数(dilation)分别设置为2和4,输出维度为96×312×128,即通过特征提取模块得到特征图尺寸为96×312×128的初始特征图。
可以理解的是,扩张卷积使得卷积输出在不改变特征图大小的前提下,以相同的计算量获取范围更广的邻域像素信息。另外,上述特征提取模块中处理第一图像和第二图像输入的网络参数是共享的。
S300:按照预设尺度获取初始特征图的尺度特征图,以及合并尺度特征图与初始特征图,以得到双目特征图。
热成像图像相比于普通相机拍下的图像,可能存在边缘模糊、层次不分明、色彩渐变、纹理稀疏等特点。因此,本申请在特征提取后,增加一个多层次的平均池化层模块,用于更好地聚合全局和局部的上下文特征信息。
其中,多层次平均池化模块包括多种预设尺度的自适应平均池化层,并且每个平均池化层之后均连接一个预设尺寸的卷积层,用于调整特征通道数。首先,可以将初始特征图输入预设尺度的平均池化层,再将平均池化层输出的特征图输入预设尺寸的卷积层,最后,将卷积层输出的特征图的尺寸恢复为初始特征图的特征图尺寸,以得到尺度特征图。再合并尺度特征图与初始特征图,以得到双目特征图。
示例性的,如图2所示,多层次平均池化模块主要由64×64、32×32、16×16、8×8四种尺度的自适应平均池化层组成,并且每个平均池化层之后均连接一个尺寸为3×3的卷积层来调整特征通道数为32。经过特征提取模块后输入到此模块的初始特征图尺寸为96×312×128,将初始特征图输入四种尺度的平均池化层以及尺寸为的卷积层后,特征通道数均变为32。
由于后续需对不同平均池化层的输出特征图进行合并,因此,将卷积层输出的特征图进行上采样,恢复为输入到本模块的特征图尺寸,进而得到四张尺寸为96×312×32的尺度特征图,其包含四种尺度的特征,作为全局的上下文信息。
最后,将四张尺度特征图与初始特征图进行合并。合并时,可以获取用于加深特征提取网络深度的残差块的输出图像,以及获取应用扩张卷积增大感受野的残差块的输出图像,合并输出图像与尺度特征图,以得到双目特征图。也就是说,如图2所示,可以将四张尺度特征图与上述特征提取模块中第二组残差块conv2_16的输出和第四组残差块conv4_3的输出进行合并,即结合全局和局部的上下文信息,获得最终的双目特征图,其包括第一图像对应的第一特征图和第二图像对应的第二特征图,特征图尺寸均为:(96×312×32)×4+96×312×64+96×312×128=96×312×320,进而使得后续构造的匹配代价卷中的信息更加完善。
上述第一特征图和第二特征图分别为双目镜头拍摄获得第一图像和第二图像对应的特征图。第一图像和第二图像还可以根据双目镜头的设置方式,分别被为左图像和右图像,上图像和下图像,以及其他位置关系的两个图像,则对应的特征图可以为左特征图和右特征图,上特征图和下特征图等,本申请对此不做具体限制。
可以理解的是,本申请提供的多层次平均池化模块可针对热成像图像边缘模糊、纹理稀疏的病态区域,有效解决热成像图像特征提取不精确的问题。此外,本申请对上采样的具体实施方式不做具体限定,例如,可以通过双线性插值的方法进行上采样。
S400:计算双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并互相关匹配代价卷和级联匹配代价卷,以得到总匹配代价卷。
其中,互相关匹配代价卷基于特征互相关运算得到,级联匹配代价卷基于特征级联得到。
可以理解的是,匹配代价卷本质上为一个4维的矩阵,相比于上述输出的双目特征图(第一特征图和第二特征图),增加了视差维度,由于最终需要网络学***均池化模块后的特征图高宽为原输入图像尺寸的1/4,最后通过上采样操作恢复为原输入图像尺寸,因此,此模块中匹配代价卷的特征维度大小为D/4。
可以理解的是,构造匹配代价卷主要包括两种方式,第一种方式是通过全相关的方式度量特征的相似度,即在每个视差值下,第一特征图和第二特征图做全特征的相关运算,但由于它对每个视差水平只产生一个单通道相关图,因此存在信息丢失;另一种方式是在每个视差水平下,直接将第一特征图和第二特征图的特征通道级联,即不包含特征相似度信息,然而,该种方式需要在后续的聚合网络中使用更多的参数,从零开始学习相似度度量。
因此,本申请提供的匹配代价卷构造模块由两部分组成,一部分是左第二特征图级联并缩减特征通道数形成的级联匹配代价卷,另一部分是由左第二特征图分组进行互相关运算并取平均得到的互相关匹配代价卷,将二者合并作为本申请中完整的总匹配代价卷。
在一些实施例中,构造互相关匹配代价卷时,分别将第一特征图和第二特征图的特征通道划分为多个特征组,计算第一特征图和第二特征图在每个视差水平下每个特征组中特征通道的组间内积,以及对每个特征组中的组间内积取平均,以得到互相关匹配代价卷。
示例性的,如图3所示,在经过上述多层次平均池化后得到第一特征图和第二特征图尺寸均为96×312×320。将320个特征通道分为40组,每组8个特征通道,对应尺寸为96×312×8,第一特征图和第二特征图在每个视差水平下进行每组特征的组间内积运算,并且在8个特征通道取平均,压缩特征维度,进而得到尺寸为D/4×96×312×24的矩阵,作为互相关匹配代价卷。
在一些实施例中,构造级联匹配代价卷时,将第一特征图输入卷积层,以及将第二特征图输入卷积层,其中,卷积层用于压缩特征通道,在特征维度将压缩特征通道后的第一特征图和第二特征图进行级联,以得到级联匹配代价卷。
可以理解的是,在每个视差水平下将左第二特征图在特征维度进行级联,但仅仅如此的话,会导致后面聚合网络中需要的参数过多,因此,在级联之前,通过两个卷积层压缩特征通道。
示例性的,如图3所示,第一特征图和第二特征图先经过一个的卷积层,输出通道为128,输出尺寸为96×312×128,再经过一个/>的卷积层,输出通道为12,输出尺寸为96×312×12的矩阵,作为压缩特征通道后的第一特征图和第二特征图。最后,将二者从特征维度级联并加上视差维度,进而得到尺寸为D/4×96×312×24的矩阵,作为级联匹配代价卷。
获取的互相关匹配代价卷和级联匹配代价卷后,将两部分匹配代价卷合并,得到尺寸为D/4×96×312×64的矩阵,作为本申请最终构建的总匹配代价卷。
另外,上述构建过程中的“在每个视差水平下”具体体现为:当视差为d时,对于第一特征图和第二特征图,不管是分组特征互相关的内积运算,还是直接级联的拼接操作,只取左图靠左的H×(W-d)部分,和右图靠右的H×(W-d)部分,其余用0填充。
可以理解的是,本申请中互相关匹配代价卷其实是将一元特征分成多个组,然后一组一组地计算他们的点积,即代价。通过组的概念减少参数,同时因为一组有多个通道,使得信息不会丢失;而对于级联匹配代价卷,由于压缩了特征通道,所以并不会导致后续聚合网络中参数过多的情况。互相关匹配代价卷提供特征向量匹配的相似度,而级联匹配代价卷提供语义信息作为补充,两者是互补的。
S500:对总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图。
本申请提供的三维卷积聚合模块通过三维卷积沿着视差维度和空间维度聚合特征信息。其中,三维卷积聚合模块包括一个残差结构的卷积层以及三个堆叠且结构相同的编解码网络,其中,残差结构的卷积层包括两层三维卷积层,分别为第一层三维卷积层和第二层三维卷积层,编解码网络包括两个编码层和两个解码层,分别为第一编码层、第二编码层、第一解码层和第二解码层,第一编码层和第二编码层用于将特征通道数翻倍,以及将特征图高宽减半。第一解码层和第二解码层为转置卷积,第一解码层和第二解码层用于将特征通道数减半,以及将特征图高宽加倍,即编解码结构就是带有中间层监督的由精到粗再由粗到精的过程。
获取到总匹配代价卷后,将总匹配代价卷依次输入两层三维卷积层,以及将第二层三维卷积层的输出级联第一层三维卷积层的输出,以得到第一聚合特征图。再将第一聚合特征图依次输入三层编解码网络,对于每一层编解码网络,将第一解码层的输出级联第一编码层的输出,以及将第二解码层的输出级联第二层三维卷积层的输出,进而得到三层编解码网络分别输出的第二聚合特征图、第三聚合特征图和第四聚合特征图。由此,得到四种不同网络深度的聚合特征图。
示例性的,如图4所示,经过上述匹配代价卷构造模块构造了尺寸为D/4×96×312×64的总匹配代价卷,将其输入到三维卷积聚合模块进行参数学习。首先,通过一个残差结构的卷积层,即第一层三维卷积层3Dconv0a和第二层三维卷积层3Dconv0b,两者均经过两个尺寸为3×3×3的卷积核,并且第一层三维卷积层3Dconv0a将特征维度降到32,第二层三维卷积层3Dconv0b的输出级联第一层三维卷积层3Dconv0a的输出,形成残差结构,进而得到尺寸为D/4×96×312×32的第一聚合特征图。
再经过三层结构相同的编解码网络,对于每个编解码网络,均包括两个编码层和两个解码层,其中,第一编码层包含第三层三维卷积层3Dconv1a和第四层三维卷积层3Dconv1b,以及两个尺寸为3×3×3的卷积核,并且第三层三维卷积层3Dconv1a将特征通道数翻倍,特征图高宽减半,进而输出为尺寸为D/8×48×156×64的特征图;第二编码层中包含第五层三维卷积层3Dconv2a和第六层三维卷积层3Dconv2b,以及两个3×3×3的卷积核,并且第五层三维卷积层3Dconv2a继续将特征通道数翻倍,特征图高宽减半,进而输出为尺寸为D/16×24×78×128的特征图;第一解码层3Ddeconv1为3×3×3的转置卷积,并进行上采样,特征通道数减半高宽加倍,同时级联第一编码层中第四层三维卷积层3Dconv1b输出,进而得尺寸为D/8×48×156×64的特征图;第二解码层3Ddeconv2也为3×3×3的转置卷积,并进行上采样,特征通道数减半高宽加倍,同时级联上述降维部分中第二层三维卷积层3Dconv0b输出,进而得到尺寸为D/4×96×312×32的特征图。由此,通过三个编解码网络可以得到三张来自不同深度层网络的聚合特征图,且尺寸均为D/4×96×312×32。
本实施例中,三维卷积聚合模块多次使用残差结构的连接,一方面发挥残差网络本身避免梯度消失的作用,另一方面,由于本模块进行了多次上下采样,为了避免丢失特征图的细节信息,编解码网络中深层网络输出均会级联浅层的输出,进而结合深浅层的特征信息。也就是说,该模块反复地处理匹配代价卷,尽可能多的利用全局多尺度的语义信息。
S600:根据多种网络深度的聚合特征图生成视差图。
获取到聚合特征图后,合并聚合特征图的特征通道,并对合并特征通道后的聚合特征图进行上采样,以将聚合特征图的视差维度和特征图尺寸恢复为双目热成像图像的图像尺寸,再基于预设激活函数回归聚合特征图,以得到视差图。
示例性的,在上述的三维卷积聚合模块中,降维过程和三个编解码网络均会各自输出一个尺寸为D/4×96×312×32的聚合特征图,作为视差图生成模块的输入,其代表不同的网络深度纳入视差图与损失函数的计算。首先,聚合特征图均会经过两个尺寸为3×3×3的三维卷积层,并合并特征通道数为1,进而得到输出尺寸均为D/4×96×312×1的聚合特征图。然后对聚合特征图进行上采样,将视差维度和特征图大小恢复到双目热成像图像的原图尺寸,以得到尺寸为D×384×1248×1的聚合特征图。再在视差维度上使用softmax函数将其转换为一个概率矩阵,再使用soft argmin函数计算每个像素的视差估计值,即可得到四张尺寸均为384×1248×1的视差图。
此外,整个网络的损失函数可以由四张视差图与真实视差图做平滑L1损失,并做加权和得到。本模块利用网络四种不同深度输出的视差图加权计算损失函数,可以充分整合多层次网络的上下文信息。同时,平滑L1损失相比于L1损失来说,处理了0附近的梯度***问题,相比于L2损失来说,也不会对异常点过于敏感。
本实施例中,获取到双目热成像图像后,先通过特征提取模块提取出双目热成像图像的特征信息,扩张特征维度;再通过多层次平均池化模块,多尺度地获取特征图的全局上下文信息;再生成分组特征互相关的匹配代价卷,通过特征图层层计算内积并在特征维度分组取平均,以获取额外的组间特征互相关信息,并将其与特征图在特征维度直接拼接的匹配代价卷进行级联,生成总的匹配代价卷;再通过三维卷积聚合模块对匹配代价卷进行编解码,将不同网络深度的特征图级联,避免细节的特征信息丢失;最后合并特征维度,并上采样回到输入图片尺寸,在视差维度进行函数回归,获得视差图并加权计算损失函数,回传训练模型。
基于上述双目视差估计方法。在本申请的部分实施例中还提供一种基于深度学***均池化模块、匹配代价卷构造模块、三维卷积聚合模块以及视差图生成模块。
其中,图像获取模块,用于获取双目热成像图像,双目热成像图像包括第一图像和第二图像。
特征提取模块,用于提取双目热成像图像的初始特征图。
多层次平均池化模块,用于按照预设尺度获取初始特征图的尺度特征图,以及合并尺度特征图与初始特征图,以得到双目特征图,双目特征图包括第一特征图和第二特征图。
匹配代价卷构造模块,用于构造双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并互相关匹配代价卷和级联匹配代价卷,以得到总匹配代价卷。其中,互相关匹配代价卷基于特征互相关运算得到,级联匹配代价卷基于特征级联得到。
三维卷积聚合模块,用于对总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图。
视差图生成模块,用于根据多种网络深度的聚合特征图生成视差图。
由以上技术方案可知,本申请提供一种基于深度学习的热成像图像双目视差估计方法及***,所述方法可以在获取到双目热成像图像后,提取双目热成像图像的初始特征图,按照预设尺度获取初始特征图的尺度特征图,以及合并尺度特征图与初始特征图,以得到双目特征图。再构造双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并互相关匹配代价卷和级联匹配代价卷,以得到总匹配代价卷,对总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图,并根据多种网络深度的聚合特征图生成视差图。所述方法可以从不同视角的热成像图像中有效提取出特征信息,以生成视差图,提高基于热成像图像获取深度信息的准确性和稳定性。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (10)
1.一种基于深度学习的热成像图像双目视差估计方法,其特征在于,包括:
获取双目热成像图像,所述双目热成像图像包括第一图像和第二图像;
提取所述双目热成像图像的初始特征图;
按照预设尺度获取所述初始特征图的尺度特征图,以及合并所述尺度特征图与所述初始特征图,以得到双目特征图,所述双目特征图包括第一特征图和第二特征图;
构造所述双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并所述互相关匹配代价卷和所述级联匹配代价卷,以得到总匹配代价卷,所述互相关匹配代价卷基于特征互相关运算得到,所述级联匹配代价卷基于特征级联得到;
对所述总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图;
根据所述多种网络深度的聚合特征图生成视差图。
2.根据权利要求1所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,所述方法还包括:
对所述第一图像和所述第二图像进行极线配准,以使所述第一图像和所述第二图像上的同名点对位于同一条水平线;
对极线配准后的所述第一图像和所述第二图像进行特征提取,以生成初始特征图。
3.根据权利要求1所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,提取所述双目热成像图像的初始特征图的步骤,包括:
将所述双目热成像图像输入多层预设尺寸的卷积核;
将所述多层预设尺寸的卷积核输出的特征图依次输入多组残差块,以得到初始特征图,其中,多组残差块包括用于加深特征提取网络深度的残差块以及应用扩张卷积增大感受野的残差块。
4.根据权利要求1所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,按照预设尺度获取所述初始特征图的尺度特征图的步骤,包括:
将所述初始特征图输入预设尺度的平均池化层;
将所述平均池化层输出的特征图输入预设尺寸的卷积层,所述卷积层用于调整特征通道数;
将所述卷积层输出的特征图的尺寸恢复为所述初始特征图的特征图尺寸,以得到尺度特征图。
5.根据权利要求3所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,合并所述尺度特征图与所述初始特征图的步骤,包括:
获取所述用于加深特征提取网络深度的残差块的输出图像,以及获取应用扩张卷积增大感受野的残差块的输出图像;
合并所述输出图像与所述尺度特征图,以得到双目特征图。
6.根据权利要求1所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,构造所述双目特征图的互相关匹配代价卷的步骤,包括:
分别将所述第一特征图和所述第二特征图的特征通道划分为多个特征组;
计算所述第一特征图和所述第二特征图在每个视差水平下每个特征组中特征通道的组间内积,以及对每个特征组中的组间内积取平均,以得到互相关匹配代价卷。
7.根据权利要求1所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,构造所述双目特征图的级联匹配代价卷的步骤,包括:
将所述第一特征图输入卷积层,以及将所述第二特征图输入卷积层,所述卷积层用于压缩特征通道;
在特征维度将压缩特征通道后的所述第一特征图和所述第二特征图进行级联,以得到级联匹配代价卷。
8.根据权利要求1所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,对所述总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图的步骤,包括:
将所述总匹配代价卷依次输入两层三维卷积层,以及将第二层三维卷积层的输出级联第一层三维卷积层的输出,以得到第一聚合特征图;
将所述第一聚合特征图依次输入三层编解码网络,以得到三层所述编解码网络分别输出的第二聚合特征图、第三聚合特征图和第四聚合特征图,所述编解码网络包括第一编码层、第二编码层、第一解码层和第二解码层;所述第一编码层和所述第二编码层用于将特征通道数翻倍,以及将特征图高宽减半;所述第一解码层和所述第二解码层用于将特征通道数减半,以及将特征图高宽加倍;所述第一解码层和所述第二解码层为转置卷积,所述第一解码层的输出级联所述第一编码层的输出,所述第二解码层的输出级联所述第二层三维卷积层的输出。
9.根据权利要求1所述的基于深度学习的热成像图像双目视差估计方法,其特征在于,根据所述多种网络深度的特征图生成视差图的步骤,包括:
合并所述聚合特征图的特征通道;
对合并特征通道后的所述聚合特征图进行上采样,以将所述聚合特征图的视差维度和特征图尺寸恢复为所述双目热成像图像的图像尺寸;
基于预设激活函数回归所述聚合特征图,以得到视差图。
10.一种基于深度学习的热成像图像双目视差估计***,其特征在于,包括:
图像获取模块,用于获取双目热成像图像,所述双目热成像图像包括第一图像和第二图像;
特征提取模块,用于提取所述双目热成像图像的初始特征图;
多层次平均池化模块,用于按照预设尺度获取所述初始特征图的尺度特征图,以及合并所述尺度特征图与所述初始特征图,以得到双目特征图,所述双目特征图包括第一特征图和第二特征图;
匹配代价卷构造模块,用于构造所述双目特征图的互相关匹配代价卷和级联匹配代价卷,以及合并所述互相关匹配代价卷和所述级联匹配代价卷,以得到总匹配代价卷,所述互相关匹配代价卷基于特征互相关运算得到,所述级联匹配代价卷基于特征级联得到;
三维卷积聚合模块,用于对所述总匹配代价卷进行编解码,以得到多种网络深度的聚合特征图;
视差图生成模块,用于根据所述多种网络深度的聚合特征图生成视差图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310913387.9A CN116630388A (zh) | 2023-07-25 | 2023-07-25 | 基于深度学习的热成像图像双目视差估计方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310913387.9A CN116630388A (zh) | 2023-07-25 | 2023-07-25 | 基于深度学习的热成像图像双目视差估计方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630388A true CN116630388A (zh) | 2023-08-22 |
Family
ID=87603071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310913387.9A Pending CN116630388A (zh) | 2023-07-25 | 2023-07-25 | 基于深度学习的热成像图像双目视差估计方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630388A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078984A (zh) * | 2023-10-17 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 双目图像处理方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908230A (zh) * | 2010-07-23 | 2010-12-08 | 东南大学 | 一种基于区域深度边缘检测和双目立体匹配的三维重建方法 |
CN105698767A (zh) * | 2015-12-30 | 2016-06-22 | 哈尔滨工业大学深圳研究生院 | 一种基于视觉的水下测量方法 |
CN113592026A (zh) * | 2021-08-13 | 2021-11-02 | 大连大学 | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 |
CN114617527A (zh) * | 2022-03-15 | 2022-06-14 | 商丘市第一人民医院 | 一种腹腔镜立体成像方法及*** |
-
2023
- 2023-07-25 CN CN202310913387.9A patent/CN116630388A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908230A (zh) * | 2010-07-23 | 2010-12-08 | 东南大学 | 一种基于区域深度边缘检测和双目立体匹配的三维重建方法 |
CN105698767A (zh) * | 2015-12-30 | 2016-06-22 | 哈尔滨工业大学深圳研究生院 | 一种基于视觉的水下测量方法 |
CN113592026A (zh) * | 2021-08-13 | 2021-11-02 | 大连大学 | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 |
CN114617527A (zh) * | 2022-03-15 | 2022-06-14 | 商丘市第一人民医院 | 一种腹腔镜立体成像方法及*** |
Non-Patent Citations (2)
Title |
---|
JIA-REN CHANG等: "Pyramid Stereo Matching Network", 《ARXIV:1803.08669V1》, pages 1 - 9 * |
XIAOYANG GUO等: "Group-wise Correlation Stereo Network", 《ARXIV:1903.04025V1》, pages 1 - 10 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078984A (zh) * | 2023-10-17 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 双目图像处理方法、装置、电子设备及存储介质 |
CN117078984B (zh) * | 2023-10-17 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 双目图像处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
CN112150521B (zh) | 一种基于PSMNet优化的图像立体匹配方法 | |
CN109598754B (zh) | 一种基于深度卷积网络的双目深度估计方法 | |
CN112132023A (zh) | 基于多尺度上下文增强网络的人群计数方法 | |
CN113592026B (zh) | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 | |
CN112767279B (zh) | 一种基于离散小波集成生成对抗网络的水下图像增强方法 | |
CN111260707B (zh) | 一种基于光场epi图像的深度估计方法 | |
CN113962858B (zh) | 一种多视角深度获取方法 | |
CN111985551B (zh) | 一种基于多重注意力网络的立体匹配算法 | |
CN106952274A (zh) | 基于立体视觉的行人检测与测距方法 | |
CN116630388A (zh) | 基于深度学习的热成像图像双目视差估计方法及*** | |
CN111583313A (zh) | 一种基于PSMNet改进的双目立体匹配方法 | |
CN115147271A (zh) | 一种用于光场超分辨率的多视图信息注意力交互网络 | |
CN103189715A (zh) | 立体图像处理装置及立体图像处理方法 | |
CN115830406A (zh) | 一种基于多视差尺度的快速光场深度估计方法 | |
CN111553296B (zh) | 一种基于fpga实现的二值神经网络立体视觉匹配方法 | |
CN112509021A (zh) | 一种基于注意力机制的视差优化方法 | |
CN115546505A (zh) | 一种基于深度学习的无监督单目图像深度估计方法 | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN113887568B (zh) | 一种各向异性卷积的双目图像立体匹配方法 | |
CN110335228B (zh) | 一种图像视差的确定方法、装置及*** | |
CN113838102A (zh) | 一种基于各向异性稠密卷积的光流确定方法和*** | |
CN116797640A (zh) | 一种面向智能伴行巡视器的深度及3d关键点估计方法 | |
CN111968168B (zh) | 多分支可调节瓶颈卷积模块以及端对端的立体匹配网络 | |
CN115631223A (zh) | 基于自适应学习和聚合的多视图立体重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |