CN112991350A - 一种基于模态差异缩减的rgb-t图像语义分割方法 - Google Patents
一种基于模态差异缩减的rgb-t图像语义分割方法 Download PDFInfo
- Publication number
- CN112991350A CN112991350A CN202110187778.8A CN202110187778A CN112991350A CN 112991350 A CN112991350 A CN 112991350A CN 202110187778 A CN202110187778 A CN 202110187778A CN 112991350 A CN112991350 A CN 112991350A
- Authority
- CN
- China
- Prior art keywords
- rgb
- features
- correlation matrix
- channel
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于模态差异缩减的RGB‑T图像语义分割方法,包括(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:(2)构建自适应通道加权融合模块,通过加权融合模块对多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;(3)获取多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵;(4)将空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;(5)训练算法网络得到模型参数。
Description
技术领域
本发明属于图像处理领域,涉及一种基于模态差异缩减的RGB-T图像语义分割方法,可用于计算机视觉任务中图像的预处理过程。
背景技术
语义分割旨在利用模型或算法为自然图像中的每个像素分配类别标签。作为场景感知的关键技术之一,语义分割在自动驾驶、行人检测以及医学影像分析等计算机视觉任务中起着至关重要的作用。
现有的语义分割方法可以分为两大类:一类是传统的语义分割方法,另一类是基于深度学***面分类器结合来完成图像语义分割。这类方法鲁棒性差,在复杂场景下难以得到令人满意的结果。随着深度学习技术的广泛应用,基于深度学习的语义分割方法取得了突破性进展,相较于传统方法,其分割效果更好,鲁棒性更强。
到目前为止,基于深度学习技术的RGB图像语义分割方法取得了突出的效果。然而,在光照条件差的情况下,这些算法的性能可能会显著下降。热红外图像可以提供目标的轮廓信息和语义信息,能够对RGB图像进行有效地补充。
现有的RGB-T语义分割方法通常采用简单的策略来捕获RGB图像和热红外图像中的互补信息,如“Yuxiang Sun,WeixunZuo,and Ming Liu.Rtfnet:Rgb-thermal fusionnetwork for semantic segmentation of urban scenes.RAL,4(3):2576–2583,2019.”仅利用逐元素相加的方式在编码器中直接融合两个模态图像的各层级特征;“Qishen Ha,Kohei Watanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes.In IROS,pages 5108–5115,2017.”仅利用级联的方式在解码器中直接融合两个模态图像的各层级特征。这些方法没有考虑到由于成像机制不同导致的RGB图像和热红外图像的模态差异问题。这一问题进一步导致通过简单的融合策略无法充分地利用跨模态互补信息,从而降低RGB-T图像语义分割方法的精度。
除此之外,待检测图像中目标的多样性,例如目标的类别、大小和形状,也是语义分割任务中的关键问题之一。在单模态RGB图像语义分割算法中,多尺度上下文信息及其远程依赖关系已经被证明是解决这一问题的有效方法。然而,在RGB-T语义分割任务中,多尺度上下文信息及其远程依赖关系还没有被很好地挖掘和利用,仅有“Qishen Ha,KoheiWatanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towardsreal-time semantic segmentation for autonomous vehicles with multi-spectralscenes.In IROS,pages 5108–5115,2017.”使用两个不同感受野的卷积并行的结构,来获取少量的上下文信息,这对于复杂场景下的RGB-T语义分割任务的效果非常有限,目标的多样性的问题仍然无法有效解决。
发明内容
发明目的:针对上述现有技术的不足,本发明目的在于提出一种基于模态差异缩减的RGB-T图像语义分割方法,主要解决现有技术未考虑到可见光图像和热红外图像的模态差异以及上下文信息利用不充分,进而导致的语义分割精度低的问题。
实现本发明的关键是在网络编码阶段对RGB特征与热红外特征的模态差异进行缩减并融合,使融合后特征更具辨别力,同时对融合后特征的多尺度上下文信息及其远程依赖关系进行充分的挖掘。
技术方案:一种基于模态差异缩减的RGB-T图像语义分割方法,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:
双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;
(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
(5)训练算法网络得到模型参数:
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。
进一步地,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
更进一步地,在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征 和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征间的差异,以及
更进一步地,步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征和其相应的热红外图像前四层特征作为输入,自适应地生成对应层级的RGB权重向量W1、W2、W3、W4以及对应层级的热红外权重向量1-W1、1-W2、1-W3、1-W4,最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
更进一步地,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征
更进一步地,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征
进一步地,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
有益效果:本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法与现有技术相比,具有如下有益效果:
1)不需要人工设计并提取特征,能够实现RGB-T图像对的端到端的像素级语义分割预测,仿真结果表明本发明显著提升了语义分割精度,同时对小目标以及在复杂的场景下的分割效果时更好;
2)本发明设计了一种“先缩减再融合”的策略,首先通过构建一种基于双向图像转换的方法来缩减多模态数据之间由于成像机制不同导致的模态差异,随后自适应地选取具有强辨别力的多模态特征以提升RGB-T语义分割效果。与已有方法相比,本方法提取到的多模态特征具有更强的判别力,有利于提升目标类别预测精度;
3)本发明通过建立跨模态特征的多尺度上下文信息及其空间、通道维度上的长期依赖的交互,充分挖掘了丰富的上下文信息,有利于解决目标多样性问题。相较于已有方法,本方法能够更好地分割不同尺度的目标,同时提升目标内部的分割完整性。
附图说明
图1为本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法的流程图;
图2为本发明提出的一种基于模态差异缩减的RGB-T图像语义分割方法的算法网络框图,其中,虚线框表示双向的模态差异缩减子网络,CWF表示自适应通道加权融合模块,MSC表示多尺度空间上下文模块,MCC表示多尺度通道上下文模块;
图3为本发明提出的自适应通道加权融合模块(CWF)框架示意图;
图4为本发明提出的多尺度空间上下文模块(MSC)框架图;
图5为本发明提出的多尺度通道上下文模块(MCC)框架图。
具体实施方式:
下面对本发明的具体实施方式详细说明。
参照图1,一种基于模态差异缩减的RGB-T图像语义分割方法,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型,其中:
如图2所示,双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
步骤1)进行RGB模态到热红外模态的特征差异缩减时,首先使用ResNet-50提取RGB图像的多层级特征其分辨率分别为输入图像分辨率的1/2、1/4、1/8、1/16、1/32,通道数分别为64、256、512、1024、2048。之后利用四个卷积核为3×3,步长为1,参数分别为的卷积操作 将降维为单通道特征图,再通过双线性插值计算并求和生成伪热红外图像Ipse-T。利用ResNet-18提取伪热红外图像Ipse-T的多层级特征 同时利用另一个ResNet-18提取相应的真热红外图像的五个不同分辨率多层级特征计算对应层级真伪特征间的差异。
类似地,进行热红外模态到RGB模态的特征差异缩减时,首先使用ResNet-50提取热红外图像的多层级特征利用相同的方式生成三通道的伪RGB图像Ipse-RGB,随后利用ResNet-18提取伪RGB图像Ipse-RGB的多层级特征 同时利用另一个ResNet-18提取相应的真RGB图像的五个不同分辨率多层级特征计算对应层级真伪特征间的差异。
双向的模态差异缩减子网络中,总的模态差异LMD为真伪热红外多层级特征间差异与真伪RGB多层级特征间的差异之和,可表示为:
其中:
L1(*)表示平均绝对误差。
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征,更好地从多模态特征中选择具有强分辨能力的特征通道;
步骤(1)获取的是四层不同分辨率的RGB特征和相应的热红外特征,对每一层RGB特征和T特征都使用该模块进行融合,因此共得到四层融合特征。同时,对于融合后的特征,也使用了ResNet-50进行特征提取。具体来说,第一层的RGB特征和热红外特征利用该融合模块得到第一层的融合特征,随后该融合特征经过ResNet-50残差块降采样,最后与第二层融合特征(即第二层RGB特征和热红外特征利用该融合模块得到的融合特征)进行相加操作。后续层也是如此。
逐通道加权融合模块如图3所示,输入步骤1中得到的缩减模态差异后的RGB特征和相应的热红外特征 最后一层的特征和均丢弃以节省网络计算量。将相应层级的多模态特征级联,通过四个卷积块操作分别预测相应的权重向量,其中每个卷积块操作都包含一个卷积核为3×3,步长为1,参数为的卷积操作和一个卷积核为1×1,步长为1,参数为的卷积操作计算来自不同模态但在同一通道中的成对特征的相对重要程度,即RGB模态的权重向量W1,W2,W3,W4以及相对应的多层级热红外模态的权重向量1-W1,1-W2,1-W3,1-W4,可表示为:
其中:
GAP(*)表示全局平均池化操作;
Cat(*)表示级联操作;
σ(*)表示sigmoid激活函数;
其中:
1表示与Wn尺寸相同的全1向量;
公式(2)中得到的Wn值越大,说明RGB模态特征对应通道比热红外模态特征对应通道更重要,反之亦然。当Wn与1-Wn两个权重向量中的值均为0.5时,可以看作是一种等比重融合的特殊情况;当Wn中的值均为0或1时,可以看作是只使用热红外或RGB单模态信息的特殊情况。
(3)构建多尺度空间、通道上下文模块,挖掘多尺度上下文信息及其空间、通道维度上的长期依赖:
如图4和图5所示,首先获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
如图4和图5所示,现有方法未能充分利用上下文信息,导致难以应对语义分割任务中目标多样性问题,故本发明利用洞卷积金字塔结构提取多尺度上下文信息,并对多尺度特征建立空间、通道维度上的长期依赖,以挖掘更为丰富的上下文信息。除此之外,为了缓解上述过程中存在的信息损失问题,本发明还对原始输入特征建立空间、通道维度上的长期依赖,作为补充信息融合到多尺度特征当中,以保证上下文信息的完整性。
洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4);一个卷积核为3×3,步长为1,洞率为1,参数为的洞卷积操作一个卷积核为3×3,步长为1,洞率为6,参数为的洞卷积操作一个卷积核为3×3,步长为1,洞率为12,参数为的洞卷积操作一个卷积核为3×3,步长为1,洞率为18,参数为的洞卷积操作四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的的一半即256。将这四个特征级联之后(1024个通道)通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同(512通道),可表示为:
其中:
(*)T表示矩阵转置操作;
Reshape(*)表示矩阵维度从RH×W×C变为RHW×C的尺寸变换操作。
将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素求和后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,如公式(7)。之后与多尺度特征进行逐元素相乘运算,同时还加入了跳连接路径,最后得到包含丰富多尺度上下文信息及其空间长期依赖的特征可表示为公式(8)。
Ms=Normalization(Mss+Mcs)(7)
其中:
Normalization(*)表示Min-Max归一化操作;
Reshape'(*)表示Reshape(*)的逆向操作。
洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9);一个卷积核为3×3,步长为1,洞率为1,参数为的洞卷积操作一个卷积核为3×3,步长为1,洞率为6,参数为的洞卷积操作一个卷积核为3×3,步长为1,洞率为12,参数为的洞卷积操作一个卷积核为3×3,步长为1,洞率为18,参数为的洞卷积操作四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的的一半即512。将这四个特征级联之后(2048个通道)输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同(1024通道),可表示为:
将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,如公式(12)。之后与多尺度特征进行逐元素相乘运算,同样加入了跳连接路径,最后得到包含多尺度上下文信息及其通道长期依赖的特征可表示为公式(13)。
Mc=Normalization(Msc+Mcc) (12)
(4)上采样恢复分辨率,预测RGB和热红外图像对的语义分割掩膜图:
将步骤(3)中得到的特征图通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
将步骤3得到的多尺度特征经过一个卷积核为2×2,步长为16,参数为的反卷积操作恢复16倍分辨率,之后利用一个卷积核为1×1,步长为1,参数为的卷积操作的卷积操作变换特征图通道数为数据集类别数,利用softmax函数计算得到语义分割掩膜图S,可表示如下:
(5)训练算法网络得到模型参数
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数:
在训练数据集上,采用监督学习机制,求取网络模型中语义分割预测结果与真值的交叉熵损失函数Ls:
其中m和n表示输入图像的宽度和高度,(i,j)表示像素点的坐标,p(xij)表示像素点的真值标签,q(xij)表示像素点的预测结果,w(xij)表示像素点的类别权重系数。使用类别权重系数w是为了缓解数据集中存在类别分布不平衡问题,第i类的权重系数wi可以表示为:
其中c为常数设置为1.1,Pi表示标签为第i类的像素点占总像素点的比例。
求取的交叉熵损失函数与公式(1)中的双向模态差异损失LMD共同组成总的损失函数Ltotal,可表示为:
Ltotal=λ1Ls(S,G)+λ2LMD (17)
其中,λ1和λ2为平衡损失的超参数,S表示模型预测结果,G表示真值。
进一步地,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
更进一步地,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征
更进一步地,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征
进一步地,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
本发明对算法进行端对端地训练,通过训练整体的RGB-T语义分割网络后,得到模型参数;在训练RGB-T语义分割网络参数时,用于训练RGB-T语义分割网络的数据集(MFNet数据集)数据量不足,为了保证网络顺利训练,避免训练数据集出现过拟合现象,对数据集中的RGB-T图像对进行随机翻转、随机裁剪以及噪声注入的数据增广操作;
以下结合仿真实验,对本发明的技术效果作进一步说明:
1、仿真条件:所有仿真实验均在操作***为Ubuntu 16.04.5,硬件环境为GPUNvidia GeForce GTX 1080Ti,采用PyTorch深度学习框架实现;
2、仿真内容及结果分析:
仿真1
将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集MFNet上进行语义分割实验,部分实验结果进行直观的比较。为了保证实验的公平,基于RGB图像的语义分割方法被扩展为两部分即RGB分支和热红外分支,将两个分支的预测结果相加作为最终的语义分割掩膜图;对于基于RGB-D的语义分割方法,我们直接利用热红外图像替换输入的深度图像。
相较于现有技术,本发明对RGB-T图像语义分割难点问题效果更好。得益于本发明中的模态差异缩减与融合策略,在光照条件差的环境中能够更好地利用多模态互补信息,进而使目标的语义分割结果更接近于人工标定的真值图,此外,得益于本发明中对上下文信息的充分挖掘,目标多样性问题得到了有效解决,小目标能够更好地被分割出来,同时不同尺度的目标都得到了较为完整的语义分割结果。
仿真2
将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集上进行语义分割实验得到的结果,采用公认的评价指标进行客观评价,评价仿真结果如表1所示,其中:
Acc表示每一类准确率;
mAcc表示类平均准确率;
IoU表示每一类的交并比;
mIoU表示类平均交并比。
以上指标均为越高越好,从表1中可以看出本发明对RGB-T图像具有更准确的语义分割能力,充分表明了本发明方法的有效性和优越性。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (8)
1.一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:
双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;
(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
(5)训练算法网络得到模型参数:
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。
2.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
3.如权利要求2所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征 和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征间的差异,以及
6.如权利要求5所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同;
7.如权利要求5所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征其通道数与输入的相同;
8.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110187778.8A CN112991350B (zh) | 2021-02-18 | 2021-02-18 | 一种基于模态差异缩减的rgb-t图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110187778.8A CN112991350B (zh) | 2021-02-18 | 2021-02-18 | 一种基于模态差异缩减的rgb-t图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991350A true CN112991350A (zh) | 2021-06-18 |
CN112991350B CN112991350B (zh) | 2023-06-27 |
Family
ID=76393651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110187778.8A Active CN112991350B (zh) | 2021-02-18 | 2021-02-18 | 一种基于模态差异缩减的rgb-t图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991350B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362349A (zh) * | 2021-07-21 | 2021-09-07 | 浙江科技学院 | 一种基于多监督网络的道路场景图像语义分割方法 |
CN113591685A (zh) * | 2021-07-29 | 2021-11-02 | 武汉理工大学 | 一种基于多尺度池化的地理对象空间关系识别方法及*** |
CN114330279A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
CN114708568A (zh) * | 2022-06-07 | 2022-07-05 | 东北大学 | 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质 |
CN115115919A (zh) * | 2022-06-24 | 2022-09-27 | 国网智能电网研究院有限公司 | 一种电网设备热缺陷识别方法及装置 |
CN115240042A (zh) * | 2022-07-05 | 2022-10-25 | 抖音视界有限公司 | 多模态图像识别方法、装置、可读介质和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
US20190347523A1 (en) * | 2018-05-14 | 2019-11-14 | Quantum-Si Incorporated | Systems and methods for unifying statistical models for different data modalities |
CN110969634A (zh) * | 2019-11-29 | 2020-04-07 | 国网湖北省电力有限公司检修公司 | 基于生成对抗网络的红外图像电力设备分割方法 |
CN111462128A (zh) * | 2020-05-28 | 2020-07-28 | 南京大学 | 一种基于多模态光谱图像的像素级图像分割***及方法 |
WO2020151536A1 (zh) * | 2019-01-25 | 2020-07-30 | 腾讯科技(深圳)有限公司 | 一种脑部图像分割方法、装置、网络设备和存储介质 |
CN111666977A (zh) * | 2020-05-09 | 2020-09-15 | 西安电子科技大学 | 一种单色图像的阴影检测方法 |
CN112101410A (zh) * | 2020-08-05 | 2020-12-18 | 中国科学院空天信息创新研究院 | 一种基于多模态特征融合的图像像素语义分割方法及*** |
-
2021
- 2021-02-18 CN CN202110187778.8A patent/CN112991350B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
US20190347523A1 (en) * | 2018-05-14 | 2019-11-14 | Quantum-Si Incorporated | Systems and methods for unifying statistical models for different data modalities |
WO2020151536A1 (zh) * | 2019-01-25 | 2020-07-30 | 腾讯科技(深圳)有限公司 | 一种脑部图像分割方法、装置、网络设备和存储介质 |
CN110969634A (zh) * | 2019-11-29 | 2020-04-07 | 国网湖北省电力有限公司检修公司 | 基于生成对抗网络的红外图像电力设备分割方法 |
CN111666977A (zh) * | 2020-05-09 | 2020-09-15 | 西安电子科技大学 | 一种单色图像的阴影检测方法 |
CN111462128A (zh) * | 2020-05-28 | 2020-07-28 | 南京大学 | 一种基于多模态光谱图像的像素级图像分割***及方法 |
CN112101410A (zh) * | 2020-08-05 | 2020-12-18 | 中国科学院空天信息创新研究院 | 一种基于多模态特征融合的图像像素语义分割方法及*** |
Non-Patent Citations (2)
Title |
---|
QIANG ZHANG 等,: "Revisiting Feature Fusion for RGB-T Salient Object Detection", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
陈丹 等,: "跨模态行人重识别研究与展望", 《计算机***应用》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362349A (zh) * | 2021-07-21 | 2021-09-07 | 浙江科技学院 | 一种基于多监督网络的道路场景图像语义分割方法 |
CN113362349B (zh) * | 2021-07-21 | 2024-05-10 | 浙江科技学院 | 一种基于多监督网络的道路场景图像语义分割方法 |
CN113591685A (zh) * | 2021-07-29 | 2021-11-02 | 武汉理工大学 | 一种基于多尺度池化的地理对象空间关系识别方法及*** |
CN113591685B (zh) * | 2021-07-29 | 2023-10-27 | 武汉理工大学 | 一种基于多尺度池化的地理对象空间关系识别方法及*** |
CN114330279A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
CN114330279B (zh) * | 2021-12-29 | 2023-04-18 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
CN114708568A (zh) * | 2022-06-07 | 2022-07-05 | 东北大学 | 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质 |
CN114708568B (zh) * | 2022-06-07 | 2022-10-04 | 东北大学 | 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质 |
CN115115919A (zh) * | 2022-06-24 | 2022-09-27 | 国网智能电网研究院有限公司 | 一种电网设备热缺陷识别方法及装置 |
CN115240042A (zh) * | 2022-07-05 | 2022-10-25 | 抖音视界有限公司 | 多模态图像识别方法、装置、可读介质和电子设备 |
CN115240042B (zh) * | 2022-07-05 | 2023-05-16 | 抖音视界有限公司 | 多模态图像识别方法、装置、可读介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112991350B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN113344806A (zh) | 一种基于全局特征融合注意力网络的图像去雾方法与*** | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN112819833B (zh) | 一种大场景点云语义分割方法 | |
Gong et al. | Global contextually guided lightweight network for RGB-thermal urban scene understanding | |
CN111241963B (zh) | 基于交互建模的第一人称视角视频交互行为识别方法 | |
CN115082675B (zh) | 一种透明物体图像分割方法及*** | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、*** | |
CN111899203A (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN116189306A (zh) | 基于联合注意力机制的人体行为识别方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN117576402A (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN117036171A (zh) | 单幅图像的蓝图可分离残差平衡蒸馏超分辨率重建模型及方法 | |
CN116863437A (zh) | 车道线检测模型训练方法、装置、设备、介质及车辆 | |
CN116453025A (zh) | 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 | |
CN113780305B (zh) | 一种基于两种线索交互的显著性目标检测方法 | |
CN115578638A (zh) | 一种基于U-Net的多层次特征交互去雾网络的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |