CN112991350B - 一种基于模态差异缩减的rgb-t图像语义分割方法 - Google Patents

一种基于模态差异缩减的rgb-t图像语义分割方法 Download PDF

Info

Publication number
CN112991350B
CN112991350B CN202110187778.8A CN202110187778A CN112991350B CN 112991350 B CN112991350 B CN 112991350B CN 202110187778 A CN202110187778 A CN 202110187778A CN 112991350 B CN112991350 B CN 112991350B
Authority
CN
China
Prior art keywords
features
channel
rgb
correlation matrix
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110187778.8A
Other languages
English (en)
Other versions
CN112991350A (zh
Inventor
张强
赵什陆
黄年昌
张鼎文
韩军功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110187778.8A priority Critical patent/CN112991350B/zh
Publication of CN112991350A publication Critical patent/CN112991350A/zh
Application granted granted Critical
Publication of CN112991350B publication Critical patent/CN112991350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模态差异缩减的RGB‑T图像语义分割方法,包括(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:(2)构建自适应通道加权融合模块,通过加权融合模块对多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;(3)获取多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵;(4)将空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;(5)训练算法网络得到模型参数。

Description

一种基于模态差异缩减的RGB-T图像语义分割方法
技术领域
本发明属于图像处理领域,涉及一种基于模态差异缩减的RGB-T图像语义分割方法,可用于计算机视觉任务中图像的预处理过程。
背景技术
语义分割旨在利用模型或算法为自然图像中的每个像素分配类别标签。作为场景感知的关键技术之一,语义分割在自动驾驶、行人检测以及医学影像分析等计算机视觉任务中起着至关重要的作用。
现有的语义分割方法可以分为两大类:一类是传统的语义分割方法,另一类是基于深度学***面分类器结合来完成图像语义分割。这类方法鲁棒性差,在复杂场景下难以得到令人满意的结果。随着深度学习技术的广泛应用,基于深度学习的语义分割方法取得了突破性进展,相较于传统方法,其分割效果更好,鲁棒性更强。
到目前为止,基于深度学习技术的RGB图像语义分割方法取得了突出的效果。然而,在光照条件差的情况下,这些算法的性能可能会显著下降。热红外图像可以提供目标的轮廓信息和语义信息,能够对RGB图像进行有效地补充。
现有的RGB-T语义分割方法通常采用简单的策略来捕获RGB图像和热红外图像中的互补信息,如“Yuxiang Sun,WeixunZuo,and Ming Liu.Rtfnet:Rgb-thermal fusionnetwork for semantic segmentation of urban scenes.RAL,4(3):2576–2583,2019.”仅利用逐元素相加的方式在编码器中直接融合两个模态图像的各层级特征;“Qishen Ha,Kohei Watanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes.In IROS,pages 5108–5115,2017.”仅利用级联的方式在解码器中直接融合两个模态图像的各层级特征。这些方法没有考虑到由于成像机制不同导致的RGB图像和热红外图像的模态差异问题。这一问题进一步导致通过简单的融合策略无法充分地利用跨模态互补信息,从而降低RGB-T图像语义分割方法的精度。
除此之外,待检测图像中目标的多样性,例如目标的类别、大小和形状,也是语义分割任务中的关键问题之一。在单模态RGB图像语义分割算法中,多尺度上下文信息及其远程依赖关系已经被证明是解决这一问题的有效方法。然而,在RGB-T语义分割任务中,多尺度上下文信息及其远程依赖关系还没有被很好地挖掘和利用,仅有“Qishen Ha,KoheiWatanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towardsreal-time semantic segmentation for autonomous vehicles with multi-spectralscenes.In IROS,pages 5108–5115,2017.”使用两个不同感受野的卷积并行的结构,来获取少量的上下文信息,这对于复杂场景下的RGB-T语义分割任务的效果非常有限,目标的多样性的问题仍然无法有效解决。
发明内容
发明目的:针对上述现有技术的不足,本发明目的在于提出一种基于模态差异缩减的RGB-T图像语义分割方法,主要解决现有技术未考虑到可见光图像和热红外图像的模态差异以及上下文信息利用不充分,进而导致的语义分割精度低的问题。
实现本发明的关键是在网络编码阶段对RGB特征与热红外特征的模态差异进行缩减并融合,使融合后特征更具辨别力,同时对融合后特征的多尺度上下文信息及其远程依赖关系进行充分的挖掘。
技术方案:一种基于模态差异缩减的RGB-T图像语义分割方法,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:
双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;
(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
(5)训练算法网络得到模型参数:
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。
进一步地,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
更进一步地,在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征
Figure GDA0004243116770000041
Figure GDA0004243116770000042
和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征
Figure GDA0004243116770000043
间的差异,以及
由ResNet-18网络提取生成的伪RGB图像的五个不同分辨率的层级特征
Figure GDA0004243116770000051
和由ResNet-18网络提取其相应的真RGB图像的五个不同分辨率的层级特征/>
Figure GDA0004243116770000052
Figure GDA0004243116770000053
间的差异;
以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征
Figure GDA0004243116770000054
和由ResNet-50网络提取的其相应的热红外多层级特征/>
Figure GDA0004243116770000055
利用
Figure GDA0004243116770000056
对/>
Figure GDA0004243116770000057
Figure GDA0004243116770000058
进行监督,利用利用/>
Figure GDA0004243116770000059
Figure GDA00042431167700000510
Figure GDA00042431167700000511
进行监督。
更进一步地,步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征
Figure GDA00042431167700000512
和其相应的热红外图像前四层特征
Figure GDA00042431167700000513
作为输入,自适应地生成对应层级的RGB权重向量W1、W2、W3、W4以及对应层级的热红外权重向量1-W1、1-W2、1-W3、1-W4,最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征/>
Figure GDA00042431167700000514
进一步地,步骤(3)中多尺度空间、通道上下文模块的输入分别为
Figure GDA00042431167700000515
和/>
Figure GDA00042431167700000516
以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
更进一步地,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure GDA0004243116770000061
的洞卷积操作/>
Figure GDA0004243116770000062
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure GDA0004243116770000063
的洞卷积操作/>
Figure GDA0004243116770000064
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure GDA0004243116770000065
的洞卷积操作/>
Figure GDA0004243116770000066
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure GDA0004243116770000067
的洞卷积操作/>
Figure GDA0004243116770000068
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的
Figure GDA0004243116770000069
的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征/>
Figure GDA00042431167700000610
其通道数与输入的/>
Figure GDA00042431167700000611
相同;
(312)将步骤(311)中得到的多尺度特征
Figure GDA00042431167700000612
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自空间相关性矩阵Mss∈RHW×HW
(313)将原输入特征
Figure GDA00042431167700000613
用与步骤(312)相同的方式得到跨空间相关性矩阵Mcs∈RHW×HW,作为信息补充部分;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征
Figure GDA0004243116770000071
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征/>
Figure GDA0004243116770000072
更进一步地,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure GDA0004243116770000073
的洞卷积操作/>
Figure GDA0004243116770000074
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure GDA0004243116770000075
的洞卷积操作/>
Figure GDA0004243116770000076
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure GDA0004243116770000077
的洞卷积操作/>
Figure GDA0004243116770000078
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure GDA0004243116770000079
的洞卷积操作/>
Figure GDA00042431167700000710
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的
Figure GDA00042431167700000711
的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征/>
Figure GDA00042431167700000712
其通道数与输入的/>
Figure GDA00042431167700000713
相同;
(322)将步骤(321)中得到的多尺度特征
Figure GDA00042431167700000714
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自通道相关性矩阵Msc∈R1024×1024
(323)将原输入特征
Figure GDA0004243116770000081
用与步骤(322)相同的方式得到跨通道相关性矩阵Mcc∈R1024×1024,作为信息补充部分;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征
Figure GDA0004243116770000082
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征/>
Figure GDA0004243116770000083
进一步地,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
有益效果:本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法与现有技术相比,具有如下有益效果:
1)不需要人工设计并提取特征,能够实现RGB-T图像对的端到端的像素级语义分割预测,仿真结果表明本发明显著提升了语义分割精度,同时对小目标以及在复杂的场景下的分割效果时更好;
2)本发明设计了一种“先缩减再融合”的策略,首先通过构建一种基于双向图像转换的方法来缩减多模态数据之间由于成像机制不同导致的模态差异,随后自适应地选取具有强辨别力的多模态特征以提升RGB-T语义分割效果。与已有方法相比,本方法提取到的多模态特征具有更强的判别力,有利于提升目标类别预测精度;
3)本发明通过建立跨模态特征的多尺度上下文信息及其空间、通道维度上的长期依赖的交互,充分挖掘了丰富的上下文信息,有利于解决目标多样性问题。相较于已有方法,本方法能够更好地分割不同尺度的目标,同时提升目标内部的分割完整性。
附图说明
图1为本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法的流程图;
图2为本发明提出的一种基于模态差异缩减的RGB-T图像语义分割方法的算法网络框图,其中,虚线框表示双向的模态差异缩减子网络,CWF表示自适应通道加权融合模块,MSC表示多尺度空间上下文模块,MCC表示多尺度通道上下文模块;
图3为本发明提出的自适应通道加权融合模块(CWF)框架示意图;
图4为本发明提出的多尺度空间上下文模块(MSC)框架图;
图5为本发明提出的多尺度通道上下文模块(MCC)框架图。
具体实施方式:
下面对本发明的具体实施方式详细说明。
参照图1,一种基于模态差异缩减的RGB-T图像语义分割方法,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型,其中:
如图2所示,双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
步骤1)进行RGB模态到热红外模态的特征差异缩减时,首先使用ResNet-50提取RGB图像的多层级特征
Figure GDA0004243116770000101
其分辨率分别为输入图像分辨率的1/2、1/4、1/8、1/16、1/32,通道数分别为64、256、512、1024、2048。之后利用四个卷积核为3×3,步长为1,参数分别为/>
Figure GDA0004243116770000102
的卷积操作/>
Figure GDA0004243116770000103
Figure GDA0004243116770000104
将/>
Figure GDA0004243116770000105
降维为单通道特征图,再通过双线性插值计算并求和生成伪热红外图像Ipse-T。利用ResNet-18提取伪热红外图像Ipse-T的多层级特征/>
Figure GDA0004243116770000106
Figure GDA0004243116770000107
同时利用另一个ResNet-18提取相应的真热红外图像的五个不同分辨率多层级特征
Figure GDA0004243116770000108
计算对应层级真伪特征间的差异。
类似地,进行热红外模态到RGB模态的特征差异缩减时,首先使用ResNet-50提取热红外图像的多层级特征
Figure GDA0004243116770000109
利用相同的方式生成三通道的伪RGB图像Ipse-RGB,随后利用ResNet-18提取伪RGB图像Ipse-RGB的多层级特征
Figure GDA00042431167700001010
Figure GDA0004243116770000111
同时利用另一个ResNet-18提取相应的真RGB图像的五个不同分辨率多层级特征
Figure GDA0004243116770000112
计算对应层级真伪特征间的差异。
利用
Figure GDA0004243116770000113
对/>
Figure GDA0004243116770000114
Figure GDA0004243116770000115
进行监督,利用利用/>
Figure GDA0004243116770000116
Figure GDA0004243116770000117
Figure GDA0004243116770000118
进行监督。
双向的模态差异缩减子网络中,总的模态差异LMD为真伪热红外多层级特征间差异与真伪RGB多层级特征间的差异之和,可表示为:
Figure GDA0004243116770000119
其中:
L1(*)表示平均绝对误差。
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征,更好地从多模态特征中选择具有强分辨能力的特征通道;
步骤(1)获取的是四层不同分辨率的RGB特征和相应的热红外特征,对每一层RGB特征和T特征都使用该模块进行融合,因此共得到四层融合特征。同时,对于融合后的特征,也使用了ResNet-50进行特征提取。具体来说,第一层的RGB特征和热红外特征利用该融合模块得到第一层的融合特征,随后该融合特征经过ResNet-50残差块降采样,最后与第二层融合特征(即第二层RGB特征和热红外特征利用该融合模块得到的融合特征)进行相加操作。后续层也是如此。
逐通道加权融合模块如图3所示,输入步骤1中得到的缩减模态差异后的RGB特征
Figure GDA0004243116770000121
和相应的热红外特征/>
Figure GDA0004243116770000122
Figure GDA0004243116770000123
最后一层的特征/>
Figure GDA0004243116770000124
Figure GDA0004243116770000125
均丢弃以节省网络计算量。将相应层级的多模态特征级联,通过四个卷积块操作分别预测相应的权重向量,其中每个卷积块操作都包含一个卷积核为3×3,步长为1,参数为/>
Figure GDA0004243116770000126
的卷积操作/>
Figure GDA0004243116770000127
和一个卷积核为1×1,步长为1,参数为/>
Figure GDA0004243116770000128
的卷积操作/>
Figure GDA0004243116770000129
计算来自不同模态但在同一通道中的成对特征的相对重要程度,即RGB模态的权重向量W1,W2,W3,W4以及相对应的多层级热红外模态的权重向量1-W1,1-W2,1-W3,1-W4,可表示为:
Figure GDA00042431167700001210
其中:
GAP(*)表示全局平均池化操作;
Cat(*)表示级联操作;
σ(*)表示sigmoid激活函数;
最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征
Figure GDA00042431167700001211
可表示为:
Figure GDA00042431167700001212
其中:
·表示逐通道乘法运算;
1表示与Wn尺寸相同的全1向量;
公式(2)中得到的Wn值越大,说明RGB模态特征对应通道比热红外模态特征对应通道更重要,反之亦然。当Wn与1-Wn两个权重向量中的值均为0.5时,可以看作是一种等比重融合的特殊情况;当Wn中的值均为0或1时,可以看作是只使用热红外或RGB单模态信息的特殊情况。
(3)构建多尺度空间、通道上下文模块,挖掘多尺度上下文信息及其空间、通道维度上的长期依赖:
如图4和图5所示,首先获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
如图4和图5所示,现有方法未能充分利用上下文信息,导致难以应对语义分割任务中目标多样性问题,故本发明利用洞卷积金字塔结构提取多尺度上下文信息,并对多尺度特征建立空间、通道维度上的长期依赖,以挖掘更为丰富的上下文信息。除此之外,为了缓解上述过程中存在的信息损失问题,本发明还对原始输入特征建立空间、通道维度上的长期依赖,作为补充信息融合到多尺度特征当中,以保证上下文信息的完整性。
具体来说,本发明构建的多尺度空间上下文模块如图4所示,其输入为步骤2中得到的融合特征
Figure GDA0004243116770000131
该模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵。
洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4);一个卷积核为3×3,步长为1,洞率为1,参数为
Figure GDA0004243116770000141
的洞卷积操作/>
Figure GDA0004243116770000142
一个卷积核为3×3,步长为1,洞率为6,参数为/>
Figure GDA0004243116770000143
的洞卷积操作
Figure GDA0004243116770000144
一个卷积核为3×3,步长为1,洞率为12,参数为/>
Figure GDA0004243116770000145
的洞卷积操作/>
Figure GDA0004243116770000146
一个卷积核为3×3,步长为1,洞率为18,参数为/>
Figure GDA0004243116770000147
的洞卷积操作/>
Figure GDA0004243116770000148
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的/>
Figure GDA0004243116770000149
的一半即256。将这四个特征级联之后(1024个通道)通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征/>
Figure GDA00042431167700001410
其通道数与输入的/>
Figure GDA00042431167700001411
相同(512通道),可表示为:
Figure GDA00042431167700001412
将得到的多尺度特征
Figure GDA00042431167700001413
进行尺寸变换为/>
Figure GDA00042431167700001414
并与其自身转置矩阵做矩阵乘法运算,以得到表征多尺度特征/>
Figure GDA00042431167700001415
空间内任意两点间相关性的自空间相关性矩阵,得到的自空间相关性矩阵Mss∈RHW×HW可表示如下:
Figure GDA00042431167700001416
其中:
Figure GDA00042431167700001417
表示矩阵乘法运算;
(*)T表示矩阵转置操作;
Reshape(*)表示矩阵维度从RH×W×C变为RHW×C的尺寸变换操作。
将原输入特征
Figure GDA00042431167700001418
用相同的方式得到跨空间相关性矩阵Mcs∈RHW×HW,计算原始输入特征空间内任意两点间相关性作为信息补充,以确保上下文信息的完整,跨空间相关性矩阵Mcs可表示如下:
Figure GDA0004243116770000151
将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素求和后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,如公式(7)。之后与多尺度特征
Figure GDA0004243116770000152
进行逐元素相乘运算,同时还加入了跳连接路径,最后得到包含丰富多尺度上下文信息及其空间长期依赖的特征
Figure GDA0004243116770000153
可表示为公式(8)。
Ms=Normalization(Mss+Mcs) (7)
Figure GDA0004243116770000154
其中:
Normalization(*)表示Min-Max归一化操作;
Reshape'(*)表示Reshape(*)的逆向操作。
本发明构建的多尺度通道上下文模块如图5所示,其输入为步骤2中得到的融合特征
Figure GDA0004243116770000155
包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9);一个卷积核为3×3,步长为1,洞率为1,参数为
Figure GDA0004243116770000156
的洞卷积操作/>
Figure GDA0004243116770000157
一个卷积核为3×3,步长为1,洞率为6,参数为/>
Figure GDA0004243116770000158
的洞卷积操作
Figure GDA0004243116770000159
一个卷积核为3×3,步长为1,洞率为12,参数为/>
Figure GDA00042431167700001510
的洞卷积操作/>
Figure GDA00042431167700001511
一个卷积核为3×3,步长为1,洞率为18,参数为/>
Figure GDA00042431167700001512
的洞卷积操作/>
Figure GDA00042431167700001513
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的/>
Figure GDA00042431167700001514
的一半即512。将这四个特征级联之后(2048个通道)输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征/>
Figure GDA0004243116770000161
其通道数与输入的/>
Figure GDA0004243116770000162
相同(1024通道),可表示为:
Figure GDA0004243116770000163
将得到的多尺度特征
Figure GDA0004243116770000164
进行尺寸变换为/>
Figure GDA0004243116770000165
并与其自身转置矩阵做矩阵乘法运算,以得到表征多尺度特征/>
Figure GDA0004243116770000166
任意两通道间相关性的自通道相关性矩阵,得到的自通道相关性矩阵Msc∈R1024×1024,可表示如下:
Figure GDA0004243116770000167
将原输入特征
Figure GDA0004243116770000168
用相同的方式得到跨通道相关性矩阵Mcc∈R1024×1024,计算原始输入特征任意两通道间的相关性作为信息补充,进一步提高上下文信息的完整性,可表示如下:
Figure GDA0004243116770000169
将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,如公式(12)。之后与多尺度特征
Figure GDA00042431167700001610
进行逐元素相乘运算,同样加入了跳连接路径,最后得到包含多尺度上下文信息及其通道长期依赖的特征
Figure GDA00042431167700001611
可表示为公式(13)。
Mc=Normalization(Msc+Mcc)(12)
Figure GDA00042431167700001612
(4)上采样恢复分辨率,预测RGB和热红外图像对的语义分割掩膜图:
将步骤(3)中得到的特征图通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
将步骤3得到的多尺度特征
Figure GDA0004243116770000171
经过一个卷积核为2×2,步长为16,参数为/>
Figure GDA0004243116770000172
的反卷积操作/>
Figure GDA0004243116770000173
恢复16倍分辨率,之后利用一个卷积核为1×1,步长为1,参数为/>
Figure GDA0004243116770000174
的卷积操作/>
Figure GDA0004243116770000175
的卷积操作变换特征图通道数为数据集类别数,利用softmax函数计算得到语义分割掩膜图S,可表示如下:
Figure GDA0004243116770000176
(5)训练算法网络得到模型参数
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数:
在训练数据集上,采用监督学习机制,求取网络模型中语义分割预测结果与真值的交叉熵损失函数Ls
Figure GDA0004243116770000177
其中m和n表示输入图像的宽度和高度,(i,j)表示像素点的坐标,p(xij)表示像素点的真值标签,q(xij)表示像素点的预测结果,w(xij)表示像素点的类别权重系数。使用类别权重系数w是为了缓解数据集中存在类别分布不平衡问题,第i类的权重系数wi可以表示为:
Figure GDA0004243116770000181
其中c为常数设置为1.1,Pi表示标签为第i类的像素点占总像素点的比例。
求取的交叉熵损失函数与公式(1)中的双向模态差异损失LMD共同组成总的损失函数Ltotal,可表示为:
Ltotal=λ1Ls(S,G)+λ2LMD (17)
其中,λ1和λ2为平衡损失的超参数,S表示模型预测结果,G表示真值。
进一步地,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
进一步地,步骤(3)中多尺度空间、通道上下文模块的输入分别为
Figure GDA0004243116770000182
和/>
Figure GDA0004243116770000183
以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
更进一步地,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure GDA0004243116770000191
的洞卷积操作/>
Figure GDA0004243116770000192
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure GDA0004243116770000193
的洞卷积操作/>
Figure GDA0004243116770000194
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure GDA0004243116770000195
的洞卷积操作/>
Figure GDA0004243116770000196
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure GDA0004243116770000197
的洞卷积操作/>
Figure GDA0004243116770000198
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的
Figure GDA0004243116770000199
的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征/>
Figure GDA00042431167700001910
其通道数与输入的/>
Figure GDA00042431167700001911
相同;
(312)将步骤(311)中得到的多尺度特征
Figure GDA00042431167700001912
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自空间相关性矩阵Mss∈RHW×HW
(313)将原输入特征
Figure GDA00042431167700001913
用与步骤(312)相同的方式得到跨空间相关性矩阵Mcs∈RHW×HW,作为信息补充部分;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征
Figure GDA0004243116770000201
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征
Figure GDA0004243116770000202
更进一步地,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure GDA0004243116770000203
的洞卷积操作/>
Figure GDA0004243116770000204
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure GDA0004243116770000205
的洞卷积操作/>
Figure GDA0004243116770000206
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure GDA0004243116770000207
的洞卷积操作/>
Figure GDA0004243116770000208
/>
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure GDA0004243116770000209
的洞卷积操作/>
Figure GDA00042431167700002010
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的
Figure GDA00042431167700002011
的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征/>
Figure GDA00042431167700002012
其通道数与输入的/>
Figure GDA00042431167700002013
相同;
(322)将步骤(321)中得到的多尺度特征
Figure GDA00042431167700002014
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自通道相关性矩阵Msc∈R1024×1024
(323)将原输入特征
Figure GDA00042431167700002015
用与步骤(322)相同的方式得到跨通道相关性矩阵Mcc∈R1024×1024,作为信息补充部分;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征
Figure GDA0004243116770000211
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征/>
Figure GDA0004243116770000212
进一步地,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
本发明对算法进行端对端地训练,通过训练整体的RGB-T语义分割网络后,得到模型参数;在训练RGB-T语义分割网络参数时,用于训练RGB-T语义分割网络的数据集(MFNet数据集)数据量不足,为了保证网络顺利训练,避免训练数据集出现过拟合现象,对数据集中的RGB-T图像对进行随机翻转、随机裁剪以及噪声注入的数据增广操作;
以下结合仿真实验,对本发明的技术效果作进一步说明:
1、仿真条件:所有仿真实验均在操作***为Ubuntu 16.04.5,硬件环境为GPUNvidia GeForce GTX 1080Ti,采用PyTorch深度学习框架实现;
2、仿真内容及结果分析:
仿真1
将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集MFNet上进行语义分割实验,部分实验结果进行直观的比较。为了保证实验的公平,基于RGB图像的语义分割方法被扩展为两部分即RGB分支和热红外分支,将两个分支的预测结果相加作为最终的语义分割掩膜图;对于基于RGB-D的语义分割方法,我们直接利用热红外图像替换输入的深度图像。
相较于现有技术,本发明对RGB-T图像语义分割难点问题效果更好。得益于本发明中的模态差异缩减与融合策略,在光照条件差的环境中能够更好地利用多模态互补信息,进而使目标的语义分割结果更接近于人工标定的真值图,此外,得益于本发明中对上下文信息的充分挖掘,目标多样性问题得到了有效解决,小目标能够更好地被分割出来,同时不同尺度的目标都得到了较为完整的语义分割结果。
仿真2
将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集上进行语义分割实验得到的结果,采用公认的评价指标进行客观评价,评价仿真结果如表1所示,其中:
Figure GDA0004243116770000221
Acc表示每一类准确率;
mAcc表示类平均准确率;
IoU表示每一类的交并比;
mIoU表示类平均交并比。
以上指标均为越高越好,从表1中可以看出本发明对RGB-T图像具有更准确的语义分割能力,充分表明了本发明方法的有效性和优越性。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:
双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;
(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,构建多尺度空间上下文模块、多尺度通道上下文模块,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
(5)训练算法网络得到模型参数:
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数,其中:
在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征
Figure FDA0004107462510000021
Figure FDA0004107462510000022
和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征/>
Figure FDA0004107462510000023
间的差异,以及
由ResNet-18网络提取生成的伪RGB图像的五个不同分辨率的层级特征
Figure FDA0004107462510000024
和由ResNet-18网络提取其相应的真RGB图像的五个不同分辨率的层级特征/>
Figure FDA0004107462510000025
Figure FDA0004107462510000026
间的差异;
以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征
Figure FDA0004107462510000027
和由ResNet-50网络提取的其相应的热红外多层级特征/>
Figure FDA0004107462510000028
利用
Figure FDA0004107462510000029
对/>
Figure FDA00041074625100000210
Figure FDA00041074625100000211
进行监督,利用/>
Figure FDA00041074625100000212
Figure FDA00041074625100000213
进行监督;
步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征
Figure FDA00041074625100000214
和其相应的热红外图像前四层特征/>
Figure FDA00041074625100000215
作为输入,自适应地生成对应层级的RGB权重向量W1、W2、W3、W4以及对应层级的热红外权重向量1-W1、1-W2、1-W3、1-W4,最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征
Figure FDA0004107462510000031
步骤(3)中多尺度空间上下文模块、多尺度通道上下文模块的输入分别为
Figure FDA0004107462510000032
和/>
Figure FDA0004107462510000033
以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵;
步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),以及
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure FDA0004107462510000034
的洞卷积操作/>
Figure FDA0004107462510000035
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure FDA0004107462510000036
的洞卷积操作/>
Figure FDA0004107462510000037
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure FDA0004107462510000038
的洞卷积操作/>
Figure FDA0004107462510000039
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure FDA00041074625100000310
的洞卷积操作/>
Figure FDA00041074625100000311
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的
Figure FDA00041074625100000312
的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征/>
Figure FDA0004107462510000041
其通道数与输入的/>
Figure FDA0004107462510000042
相同;
(312)将步骤(311)中得到的多尺度特征
Figure FDA0004107462510000043
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自空间相关性矩阵Mss∈RHW×HW
(313)将原输入特征
Figure FDA0004107462510000044
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算得到跨空间相关性矩阵Mcs∈RHW×HW,作为信息补充部分;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征
Figure FDA0004107462510000045
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征/>
Figure FDA0004107462510000046
步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),以及:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure FDA0004107462510000047
的洞卷积操作/>
Figure FDA0004107462510000048
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure FDA0004107462510000049
的洞卷积操作/>
Figure FDA00041074625100000410
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure FDA00041074625100000411
的洞卷积操作/>
Figure FDA00041074625100000412
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure FDA0004107462510000051
的洞卷积操作/>
Figure FDA0004107462510000052
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的
Figure FDA0004107462510000053
的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征/>
Figure FDA0004107462510000054
其通道数与输入的/>
Figure FDA0004107462510000055
相同;
(322)将步骤(321)中得到的多尺度特征
Figure FDA0004107462510000056
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自通道相关性矩阵Msc∈R1024×1024
(323)将原输入特征
Figure FDA0004107462510000057
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算得到跨通道相关性矩阵Mcc∈R1024×1024,作为信息补充部分;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征
Figure FDA0004107462510000058
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征/>
Figure FDA0004107462510000059
2.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
3.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
CN202110187778.8A 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法 Active CN112991350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110187778.8A CN112991350B (zh) 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110187778.8A CN112991350B (zh) 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法

Publications (2)

Publication Number Publication Date
CN112991350A CN112991350A (zh) 2021-06-18
CN112991350B true CN112991350B (zh) 2023-06-27

Family

ID=76393651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110187778.8A Active CN112991350B (zh) 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法

Country Status (1)

Country Link
CN (1) CN112991350B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362349B (zh) * 2021-07-21 2024-05-10 浙江科技学院 一种基于多监督网络的道路场景图像语义分割方法
CN113591685B (zh) * 2021-07-29 2023-10-27 武汉理工大学 一种基于多尺度池化的地理对象空间关系识别方法及***
CN114330279B (zh) * 2021-12-29 2023-04-18 电子科技大学 一种跨模态语义连贯性恢复方法
CN114708568B (zh) * 2022-06-07 2022-10-04 东北大学 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质
CN115115919B (zh) * 2022-06-24 2023-05-05 国网智能电网研究院有限公司 一种电网设备热缺陷识别方法及装置
CN115240042B (zh) * 2022-07-05 2023-05-16 抖音视界有限公司 多模态图像识别方法、装置、可读介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969634A (zh) * 2019-11-29 2020-04-07 国网湖北省电力有限公司检修公司 基于生成对抗网络的红外图像电力设备分割方法
CN111462128A (zh) * 2020-05-28 2020-07-28 南京大学 一种基于多模态光谱图像的像素级图像分割***及方法
WO2020151536A1 (zh) * 2019-01-25 2020-07-30 腾讯科技(深圳)有限公司 一种脑部图像分割方法、装置、网络设备和存储介质
CN111666977A (zh) * 2020-05-09 2020-09-15 西安电子科技大学 一种单色图像的阴影检测方法
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784654B (zh) * 2016-08-26 2020-09-25 杭州海康威视数字技术股份有限公司 图像分割方法、装置及全卷积网络***
MX2020012276A (es) * 2018-05-14 2021-01-29 Quantum Si Inc Sistemas y metodos para unificar modelos estadisticos para diferentes modalidades de datos.

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020151536A1 (zh) * 2019-01-25 2020-07-30 腾讯科技(深圳)有限公司 一种脑部图像分割方法、装置、网络设备和存储介质
CN110969634A (zh) * 2019-11-29 2020-04-07 国网湖北省电力有限公司检修公司 基于生成对抗网络的红外图像电力设备分割方法
CN111666977A (zh) * 2020-05-09 2020-09-15 西安电子科技大学 一种单色图像的阴影检测方法
CN111462128A (zh) * 2020-05-28 2020-07-28 南京大学 一种基于多模态光谱图像的像素级图像分割***及方法
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Revisiting Feature Fusion for RGB-T Salient Object Detection;Qiang Zhang 等,;《IEEE Transactions on Circuits and Systems for Video Technology》;20200806;第2020年卷;全文 *
跨模态行人重识别研究与展望;陈丹 等,;《计算机***应用》;20201031;第29卷(第10期);全文 *

Also Published As

Publication number Publication date
CN112991350A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
Huang et al. DSNet: Joint semantic learning for object detection in inclement weather conditions
Guo et al. Scene-driven multitask parallel attention network for building extraction in high-resolution remote sensing images
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111259906B (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
CN111612008B (zh) 基于卷积网络的图像分割方法
CN113344806A (zh) 一种基于全局特征融合注意力网络的图像去雾方法与***
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及***
Gong et al. Global contextually guided lightweight network for RGB-thermal urban scene understanding
CN112785526A (zh) 一种用于图形处理的三维点云修复方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
Shen et al. ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、***
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Zeng et al. Dual swin-transformer based mutual interactive network for RGB-D salient object detection
Wu et al. Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
Ogura et al. Improving the visibility of nighttime images for pedestrian recognition using in‐vehicle camera
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
CN115222578A (zh) 图像风格迁移方法、程序产品、存储介质及电子设备
Ying et al. DGMA 2-Net: A Difference-Guided Multiscale Aggregation Attention Network for Remote Sensing Change Detection
Zhou et al. GAF-Net: Geometric Contextual Feature Aggregation and Adaptive Fusion for Large-Scale Point Cloud Semantic Segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant