CN112991350A - 一种基于模态差异缩减的rgb-t图像语义分割方法 - Google Patents

一种基于模态差异缩减的rgb-t图像语义分割方法 Download PDF

Info

Publication number
CN112991350A
CN112991350A CN202110187778.8A CN202110187778A CN112991350A CN 112991350 A CN112991350 A CN 112991350A CN 202110187778 A CN202110187778 A CN 202110187778A CN 112991350 A CN112991350 A CN 112991350A
Authority
CN
China
Prior art keywords
rgb
features
correlation matrix
channel
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110187778.8A
Other languages
English (en)
Other versions
CN112991350B (zh
Inventor
张强
赵什陆
黄年昌
张鼎文
韩军功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110187778.8A priority Critical patent/CN112991350B/zh
Publication of CN112991350A publication Critical patent/CN112991350A/zh
Application granted granted Critical
Publication of CN112991350B publication Critical patent/CN112991350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模态差异缩减的RGB‑T图像语义分割方法,包括(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:(2)构建自适应通道加权融合模块,通过加权融合模块对多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;(3)获取多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵;(4)将空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;(5)训练算法网络得到模型参数。

Description

一种基于模态差异缩减的RGB-T图像语义分割方法
技术领域
本发明属于图像处理领域,涉及一种基于模态差异缩减的RGB-T图像语义分割方法,可用于计算机视觉任务中图像的预处理过程。
背景技术
语义分割旨在利用模型或算法为自然图像中的每个像素分配类别标签。作为场景感知的关键技术之一,语义分割在自动驾驶、行人检测以及医学影像分析等计算机视觉任务中起着至关重要的作用。
现有的语义分割方法可以分为两大类:一类是传统的语义分割方法,另一类是基于深度学***面分类器结合来完成图像语义分割。这类方法鲁棒性差,在复杂场景下难以得到令人满意的结果。随着深度学习技术的广泛应用,基于深度学习的语义分割方法取得了突破性进展,相较于传统方法,其分割效果更好,鲁棒性更强。
到目前为止,基于深度学习技术的RGB图像语义分割方法取得了突出的效果。然而,在光照条件差的情况下,这些算法的性能可能会显著下降。热红外图像可以提供目标的轮廓信息和语义信息,能够对RGB图像进行有效地补充。
现有的RGB-T语义分割方法通常采用简单的策略来捕获RGB图像和热红外图像中的互补信息,如“Yuxiang Sun,WeixunZuo,and Ming Liu.Rtfnet:Rgb-thermal fusionnetwork for semantic segmentation of urban scenes.RAL,4(3):2576–2583,2019.”仅利用逐元素相加的方式在编码器中直接融合两个模态图像的各层级特征;“Qishen Ha,Kohei Watanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes.In IROS,pages 5108–5115,2017.”仅利用级联的方式在解码器中直接融合两个模态图像的各层级特征。这些方法没有考虑到由于成像机制不同导致的RGB图像和热红外图像的模态差异问题。这一问题进一步导致通过简单的融合策略无法充分地利用跨模态互补信息,从而降低RGB-T图像语义分割方法的精度。
除此之外,待检测图像中目标的多样性,例如目标的类别、大小和形状,也是语义分割任务中的关键问题之一。在单模态RGB图像语义分割算法中,多尺度上下文信息及其远程依赖关系已经被证明是解决这一问题的有效方法。然而,在RGB-T语义分割任务中,多尺度上下文信息及其远程依赖关系还没有被很好地挖掘和利用,仅有“Qishen Ha,KoheiWatanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towardsreal-time semantic segmentation for autonomous vehicles with multi-spectralscenes.In IROS,pages 5108–5115,2017.”使用两个不同感受野的卷积并行的结构,来获取少量的上下文信息,这对于复杂场景下的RGB-T语义分割任务的效果非常有限,目标的多样性的问题仍然无法有效解决。
发明内容
发明目的:针对上述现有技术的不足,本发明目的在于提出一种基于模态差异缩减的RGB-T图像语义分割方法,主要解决现有技术未考虑到可见光图像和热红外图像的模态差异以及上下文信息利用不充分,进而导致的语义分割精度低的问题。
实现本发明的关键是在网络编码阶段对RGB特征与热红外特征的模态差异进行缩减并融合,使融合后特征更具辨别力,同时对融合后特征的多尺度上下文信息及其远程依赖关系进行充分的挖掘。
技术方案:一种基于模态差异缩减的RGB-T图像语义分割方法,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:
双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;
(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
(5)训练算法网络得到模型参数:
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。
进一步地,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
更进一步地,在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征
Figure BDA0002943769530000041
Figure BDA0002943769530000042
和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征
Figure BDA0002943769530000043
间的差异,以及
由ResNet-18网络提取生成的伪RGB图像的五个不同分辨率的层级特征
Figure BDA0002943769530000051
和由ResNet-18网络提取其相应的真RGB图像的五个不同分辨率的层级特征
Figure BDA0002943769530000052
Figure BDA0002943769530000053
间的差异;
以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征
Figure BDA0002943769530000054
和由ResNet-50网络提取的其相应的热红外多层级特征
Figure BDA0002943769530000055
利用
Figure BDA0002943769530000056
Figure BDA0002943769530000057
Figure BDA0002943769530000058
进行监督,利用利用
Figure BDA0002943769530000059
Figure BDA00029437695300000510
Figure BDA00029437695300000511
进行监督。
更进一步地,步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征
Figure BDA00029437695300000512
和其相应的热红外图像前四层特征
Figure BDA00029437695300000513
作为输入,自适应地生成对应层级的RGB权重向量W1、W2、W3、W4以及对应层级的热红外权重向量1-W1、1-W2、1-W3、1-W4,最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征
Figure BDA00029437695300000514
进一步地,步骤(3)中多尺度空间、通道上下文模块的输入分别为
Figure BDA00029437695300000515
Figure BDA00029437695300000516
以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
更进一步地,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure BDA0002943769530000061
的洞卷积操作
Figure BDA0002943769530000062
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA0002943769530000063
的洞卷积操作
Figure BDA0002943769530000064
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure BDA0002943769530000065
的洞卷积操作
Figure BDA0002943769530000066
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure BDA0002943769530000067
的洞卷积操作
Figure BDA0002943769530000068
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的
Figure BDA0002943769530000069
的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征
Figure BDA00029437695300000610
其通道数与输入的
Figure BDA00029437695300000611
相同;
(312)将步骤(311)中得到的多尺度特征
Figure BDA00029437695300000612
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自空间相关性矩阵Mss∈RHW×HW
(313)将原输入特征
Figure BDA00029437695300000613
用与步骤(312)相同的方式得到跨空间相关性矩阵Mcs∈RHW×HW,作为信息补充部分;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征
Figure BDA0002943769530000071
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征
Figure BDA0002943769530000072
更进一步地,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure BDA0002943769530000073
的洞卷积操作
Figure BDA0002943769530000074
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA0002943769530000075
的洞卷积操作
Figure BDA0002943769530000076
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure BDA0002943769530000077
的洞卷积操作
Figure BDA0002943769530000078
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure BDA0002943769530000079
的洞卷积操作
Figure BDA00029437695300000710
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的
Figure BDA00029437695300000711
的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征
Figure BDA00029437695300000712
其通道数与输入的
Figure BDA00029437695300000713
相同;
(322)将步骤(321)中得到的多尺度特征
Figure BDA00029437695300000714
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自通道相关性矩阵Msc∈R1024×1024
(323)将原输入特征
Figure BDA0002943769530000081
用与步骤(322)相同的方式得到跨通道相关性矩阵Mcc∈R1024×1024,作为信息补充部分;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征
Figure BDA0002943769530000082
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征
Figure BDA0002943769530000083
进一步地,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
有益效果:本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法与现有技术相比,具有如下有益效果:
1)不需要人工设计并提取特征,能够实现RGB-T图像对的端到端的像素级语义分割预测,仿真结果表明本发明显著提升了语义分割精度,同时对小目标以及在复杂的场景下的分割效果时更好;
2)本发明设计了一种“先缩减再融合”的策略,首先通过构建一种基于双向图像转换的方法来缩减多模态数据之间由于成像机制不同导致的模态差异,随后自适应地选取具有强辨别力的多模态特征以提升RGB-T语义分割效果。与已有方法相比,本方法提取到的多模态特征具有更强的判别力,有利于提升目标类别预测精度;
3)本发明通过建立跨模态特征的多尺度上下文信息及其空间、通道维度上的长期依赖的交互,充分挖掘了丰富的上下文信息,有利于解决目标多样性问题。相较于已有方法,本方法能够更好地分割不同尺度的目标,同时提升目标内部的分割完整性。
附图说明
图1为本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法的流程图;
图2为本发明提出的一种基于模态差异缩减的RGB-T图像语义分割方法的算法网络框图,其中,虚线框表示双向的模态差异缩减子网络,CWF表示自适应通道加权融合模块,MSC表示多尺度空间上下文模块,MCC表示多尺度通道上下文模块;
图3为本发明提出的自适应通道加权融合模块(CWF)框架示意图;
图4为本发明提出的多尺度空间上下文模块(MSC)框架图;
图5为本发明提出的多尺度通道上下文模块(MCC)框架图。
具体实施方式:
下面对本发明的具体实施方式详细说明。
参照图1,一种基于模态差异缩减的RGB-T图像语义分割方法,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型,其中:
如图2所示,双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
步骤1)进行RGB模态到热红外模态的特征差异缩减时,首先使用ResNet-50提取RGB图像的多层级特征
Figure BDA0002943769530000101
其分辨率分别为输入图像分辨率的1/2、1/4、1/8、1/16、1/32,通道数分别为64、256、512、1024、2048。之后利用四个卷积核为3×3,步长为1,参数分别为
Figure BDA0002943769530000102
的卷积操作
Figure BDA0002943769530000103
Figure BDA0002943769530000104
Figure BDA0002943769530000105
降维为单通道特征图,再通过双线性插值计算并求和生成伪热红外图像Ipse-T。利用ResNet-18提取伪热红外图像Ipse-T的多层级特征
Figure BDA0002943769530000106
Figure BDA0002943769530000107
同时利用另一个ResNet-18提取相应的真热红外图像的五个不同分辨率多层级特征
Figure BDA0002943769530000108
计算对应层级真伪特征间的差异。
类似地,进行热红外模态到RGB模态的特征差异缩减时,首先使用ResNet-50提取热红外图像的多层级特征
Figure BDA0002943769530000109
利用相同的方式生成三通道的伪RGB图像Ipse-RGB,随后利用ResNet-18提取伪RGB图像Ipse-RGB的多层级特征
Figure BDA00029437695300001010
Figure BDA0002943769530000111
同时利用另一个ResNet-18提取相应的真RGB图像的五个不同分辨率多层级特征
Figure BDA0002943769530000112
计算对应层级真伪特征间的差异。
利用
Figure BDA0002943769530000113
Figure BDA0002943769530000114
Figure BDA0002943769530000115
进行监督,利用利用
Figure BDA0002943769530000116
Figure BDA0002943769530000117
Figure BDA0002943769530000118
进行监督。
双向的模态差异缩减子网络中,总的模态差异LMD为真伪热红外多层级特征间差异与真伪RGB多层级特征间的差异之和,可表示为:
Figure BDA0002943769530000119
其中:
L1(*)表示平均绝对误差。
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征,更好地从多模态特征中选择具有强分辨能力的特征通道;
步骤(1)获取的是四层不同分辨率的RGB特征和相应的热红外特征,对每一层RGB特征和T特征都使用该模块进行融合,因此共得到四层融合特征。同时,对于融合后的特征,也使用了ResNet-50进行特征提取。具体来说,第一层的RGB特征和热红外特征利用该融合模块得到第一层的融合特征,随后该融合特征经过ResNet-50残差块降采样,最后与第二层融合特征(即第二层RGB特征和热红外特征利用该融合模块得到的融合特征)进行相加操作。后续层也是如此。
逐通道加权融合模块如图3所示,输入步骤1中得到的缩减模态差异后的RGB特征
Figure BDA0002943769530000121
和相应的热红外特征
Figure BDA0002943769530000122
Figure BDA0002943769530000123
最后一层的特征
Figure BDA0002943769530000124
Figure BDA0002943769530000125
均丢弃以节省网络计算量。将相应层级的多模态特征级联,通过四个卷积块操作分别预测相应的权重向量,其中每个卷积块操作都包含一个卷积核为3×3,步长为1,参数为
Figure BDA0002943769530000126
的卷积操作
Figure BDA0002943769530000127
和一个卷积核为1×1,步长为1,参数为
Figure BDA0002943769530000128
的卷积操作
Figure BDA0002943769530000129
计算来自不同模态但在同一通道中的成对特征的相对重要程度,即RGB模态的权重向量W1,W2,W3,W4以及相对应的多层级热红外模态的权重向量1-W1,1-W2,1-W3,1-W4,可表示为:
Figure BDA00029437695300001210
其中:
GAP(*)表示全局平均池化操作;
Cat(*)表示级联操作;
σ(*)表示sigmoid激活函数;
最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征
Figure BDA00029437695300001211
可表示为:
Figure BDA00029437695300001212
其中:
Figure BDA00029437695300001213
表示逐通道乘法运算;
1表示与Wn尺寸相同的全1向量;
公式(2)中得到的Wn值越大,说明RGB模态特征对应通道比热红外模态特征对应通道更重要,反之亦然。当Wn与1-Wn两个权重向量中的值均为0.5时,可以看作是一种等比重融合的特殊情况;当Wn中的值均为0或1时,可以看作是只使用热红外或RGB单模态信息的特殊情况。
(3)构建多尺度空间、通道上下文模块,挖掘多尺度上下文信息及其空间、通道维度上的长期依赖:
如图4和图5所示,首先获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
如图4和图5所示,现有方法未能充分利用上下文信息,导致难以应对语义分割任务中目标多样性问题,故本发明利用洞卷积金字塔结构提取多尺度上下文信息,并对多尺度特征建立空间、通道维度上的长期依赖,以挖掘更为丰富的上下文信息。除此之外,为了缓解上述过程中存在的信息损失问题,本发明还对原始输入特征建立空间、通道维度上的长期依赖,作为补充信息融合到多尺度特征当中,以保证上下文信息的完整性。
具体来说,本发明构建的多尺度空间上下文模块如图4所示,其输入为步骤2中得到的融合特征
Figure BDA0002943769530000131
该模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵。
洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4);一个卷积核为3×3,步长为1,洞率为1,参数为
Figure BDA0002943769530000141
的洞卷积操作
Figure BDA0002943769530000142
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA0002943769530000143
的洞卷积操作
Figure BDA0002943769530000144
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure BDA0002943769530000145
的洞卷积操作
Figure BDA0002943769530000146
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure BDA0002943769530000147
的洞卷积操作
Figure BDA0002943769530000148
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的
Figure BDA0002943769530000149
的一半即256。将这四个特征级联之后(1024个通道)通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征
Figure BDA00029437695300001410
其通道数与输入的
Figure BDA00029437695300001411
相同(512通道),可表示为:
Figure BDA00029437695300001412
将得到的多尺度特征
Figure BDA00029437695300001413
进行尺寸变换为
Figure BDA00029437695300001414
并与其自身转置矩阵做矩阵乘法运算,以得到表征多尺度特征
Figure BDA00029437695300001415
空间内任意两点间相关性的自空间相关性矩阵,得到的自空间相关性矩阵Mss∈RHW×HW可表示如下:
Figure BDA00029437695300001416
其中:
Figure BDA00029437695300001417
表示矩阵乘法运算;
(*)T表示矩阵转置操作;
Reshape(*)表示矩阵维度从RH×W×C变为RHW×C的尺寸变换操作。
将原输入特征
Figure BDA00029437695300001418
用相同的方式得到跨空间相关性矩阵Mcs∈RHW×HW,计算原始输入特征空间内任意两点间相关性作为信息补充,以确保上下文信息的完整,跨空间相关性矩阵Mcs可表示如下:
Figure BDA0002943769530000151
将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素求和后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,如公式(7)。之后与多尺度特征
Figure BDA0002943769530000152
进行逐元素相乘运算,同时还加入了跳连接路径,最后得到包含丰富多尺度上下文信息及其空间长期依赖的特征
Figure BDA0002943769530000153
可表示为公式(8)。
Ms=Normalization(Mss+Mcs)(7)
Figure BDA0002943769530000154
其中:
Normalization(*)表示Min-Max归一化操作;
Reshape'(*)表示Reshape(*)的逆向操作。
本发明构建的多尺度通道上下文模块如图5所示,其输入为步骤2中得到的融合特征
Figure BDA0002943769530000155
包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9);一个卷积核为3×3,步长为1,洞率为1,参数为
Figure BDA0002943769530000156
的洞卷积操作
Figure BDA0002943769530000157
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA0002943769530000158
的洞卷积操作
Figure BDA0002943769530000159
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure BDA00029437695300001510
的洞卷积操作
Figure BDA00029437695300001511
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure BDA00029437695300001512
的洞卷积操作
Figure BDA00029437695300001513
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的
Figure BDA00029437695300001514
的一半即512。将这四个特征级联之后(2048个通道)输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征
Figure BDA0002943769530000161
其通道数与输入的
Figure BDA0002943769530000162
相同(1024通道),可表示为:
Figure BDA0002943769530000163
将得到的多尺度特征
Figure BDA0002943769530000164
进行尺寸变换为
Figure BDA0002943769530000165
并与其自身转置矩阵做矩阵乘法运算,以得到表征多尺度特征
Figure BDA0002943769530000166
任意两通道间相关性的自通道相关性矩阵,得到的自通道相关性矩阵Msc∈R1024×1024,可表示如下:
Figure BDA0002943769530000167
将原输入特征
Figure BDA0002943769530000168
用相同的方式得到跨通道相关性矩阵Mcc∈R1024×1024,计算原始输入特征任意两通道间的相关性作为信息补充,进一步提高上下文信息的完整性,可表示如下:
Figure BDA0002943769530000169
将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,如公式(12)。之后与多尺度特征
Figure BDA00029437695300001610
进行逐元素相乘运算,同样加入了跳连接路径,最后得到包含多尺度上下文信息及其通道长期依赖的特征
Figure BDA00029437695300001611
可表示为公式(13)。
Mc=Normalization(Msc+Mcc) (12)
Figure BDA00029437695300001612
(4)上采样恢复分辨率,预测RGB和热红外图像对的语义分割掩膜图:
将步骤(3)中得到的特征图通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
将步骤3得到的多尺度特征
Figure BDA0002943769530000171
经过一个卷积核为2×2,步长为16,参数为
Figure BDA0002943769530000172
的反卷积操作
Figure BDA0002943769530000173
恢复16倍分辨率,之后利用一个卷积核为1×1,步长为1,参数为
Figure BDA0002943769530000174
的卷积操作
Figure BDA0002943769530000175
的卷积操作变换特征图通道数为数据集类别数,利用softmax函数计算得到语义分割掩膜图S,可表示如下:
Figure BDA0002943769530000176
(5)训练算法网络得到模型参数
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数:
在训练数据集上,采用监督学习机制,求取网络模型中语义分割预测结果与真值的交叉熵损失函数Ls
Figure BDA0002943769530000177
其中m和n表示输入图像的宽度和高度,(i,j)表示像素点的坐标,p(xij)表示像素点的真值标签,q(xij)表示像素点的预测结果,w(xij)表示像素点的类别权重系数。使用类别权重系数w是为了缓解数据集中存在类别分布不平衡问题,第i类的权重系数wi可以表示为:
Figure BDA0002943769530000181
其中c为常数设置为1.1,Pi表示标签为第i类的像素点占总像素点的比例。
求取的交叉熵损失函数与公式(1)中的双向模态差异损失LMD共同组成总的损失函数Ltotal,可表示为:
Ltotal=λ1Ls(S,G)+λ2LMD (17)
其中,λ1和λ2为平衡损失的超参数,S表示模型预测结果,G表示真值。
进一步地,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
进一步地,步骤(3)中多尺度空间、通道上下文模块的输入分别为
Figure BDA0002943769530000182
Figure BDA0002943769530000183
以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
更进一步地,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure BDA0002943769530000191
的洞卷积操作
Figure BDA0002943769530000192
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA0002943769530000193
的洞卷积操作
Figure BDA0002943769530000194
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure BDA0002943769530000195
的洞卷积操作
Figure BDA0002943769530000196
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure BDA0002943769530000197
的洞卷积操作
Figure BDA0002943769530000198
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的
Figure BDA0002943769530000199
的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征
Figure BDA00029437695300001910
其通道数与输入的
Figure BDA00029437695300001911
相同;
(312)将步骤(311)中得到的多尺度特征
Figure BDA00029437695300001912
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自空间相关性矩阵Mss∈RHW×HW
(313)将原输入特征
Figure BDA00029437695300001913
用与步骤(312)相同的方式得到跨空间相关性矩阵Mcs∈RHW×HW,作为信息补充部分;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征
Figure BDA0002943769530000201
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征
Figure BDA0002943769530000202
更进一步地,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure BDA0002943769530000203
的洞卷积操作
Figure BDA0002943769530000204
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA0002943769530000205
的洞卷积操作
Figure BDA0002943769530000206
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure BDA0002943769530000207
的洞卷积操作
Figure BDA0002943769530000208
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure BDA0002943769530000209
的洞卷积操作
Figure BDA00029437695300002010
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的
Figure BDA00029437695300002011
的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征
Figure BDA00029437695300002012
其通道数与输入的
Figure BDA00029437695300002013
相同;
(322)将步骤(321)中得到的多尺度特征
Figure BDA00029437695300002014
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自通道相关性矩阵Msc∈R1024×1024
(323)将原输入特征
Figure BDA00029437695300002015
用与步骤(322)相同的方式得到跨通道相关性矩阵Mcc∈R1024×1024,作为信息补充部分;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征
Figure BDA0002943769530000211
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征
Figure BDA0002943769530000212
进一步地,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
本发明对算法进行端对端地训练,通过训练整体的RGB-T语义分割网络后,得到模型参数;在训练RGB-T语义分割网络参数时,用于训练RGB-T语义分割网络的数据集(MFNet数据集)数据量不足,为了保证网络顺利训练,避免训练数据集出现过拟合现象,对数据集中的RGB-T图像对进行随机翻转、随机裁剪以及噪声注入的数据增广操作;
以下结合仿真实验,对本发明的技术效果作进一步说明:
1、仿真条件:所有仿真实验均在操作***为Ubuntu 16.04.5,硬件环境为GPUNvidia GeForce GTX 1080Ti,采用PyTorch深度学习框架实现;
2、仿真内容及结果分析:
仿真1
将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集MFNet上进行语义分割实验,部分实验结果进行直观的比较。为了保证实验的公平,基于RGB图像的语义分割方法被扩展为两部分即RGB分支和热红外分支,将两个分支的预测结果相加作为最终的语义分割掩膜图;对于基于RGB-D的语义分割方法,我们直接利用热红外图像替换输入的深度图像。
相较于现有技术,本发明对RGB-T图像语义分割难点问题效果更好。得益于本发明中的模态差异缩减与融合策略,在光照条件差的环境中能够更好地利用多模态互补信息,进而使目标的语义分割结果更接近于人工标定的真值图,此外,得益于本发明中对上下文信息的充分挖掘,目标多样性问题得到了有效解决,小目标能够更好地被分割出来,同时不同尺度的目标都得到了较为完整的语义分割结果。
仿真2
将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集上进行语义分割实验得到的结果,采用公认的评价指标进行客观评价,评价仿真结果如表1所示,其中:
Figure BDA0002943769530000221
Acc表示每一类准确率;
mAcc表示类平均准确率;
IoU表示每一类的交并比;
mIoU表示类平均交并比。
以上指标均为越高越好,从表1中可以看出本发明对RGB-T图像具有更准确的语义分割能力,充分表明了本发明方法的有效性和优越性。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:
双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;
(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
(5)训练算法网络得到模型参数:
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。
2.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。
3.如权利要求2所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征
Figure FDA0002943769520000021
Figure FDA0002943769520000022
和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征
Figure FDA0002943769520000023
间的差异,以及
由ResNet-18网络提取生成的伪RGB图像的五个不同分辨率的层级特征
Figure FDA0002943769520000024
和由ResNet-18网络提取其相应的真RGB图像的五个不同分辨率的层级特征
Figure FDA0002943769520000025
Figure FDA0002943769520000026
间的差异;
以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征
Figure FDA0002943769520000027
和由ResNet-50网络提取的其相应的热红外多层级特征
Figure FDA0002943769520000031
利用
Figure FDA0002943769520000032
Figure FDA0002943769520000033
Figure FDA0002943769520000034
进行监督,利用利用
Figure FDA0002943769520000035
Figure FDA0002943769520000036
Figure FDA0002943769520000037
进行监督。
4.如权利要求3所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征
Figure FDA0002943769520000038
Figure FDA0002943769520000039
和其相应的热红外图像前四层特征
Figure FDA00029437695200000310
作为输入,自适应地生成对应层级的RGB权重向量W1、W2、W3、W4以及对应层级的热红外权重向量1-W1、1-W2、1-W3、1-W4,最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征
Figure FDA00029437695200000311
Figure FDA00029437695200000312
5.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(3)中多尺度空间、通道上下文模块的输入分别为
Figure FDA00029437695200000313
Figure FDA00029437695200000314
以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度通道上下文模块包括一个洞卷积金字塔结构,一个自通道相关性矩阵,一个跨通道相关性矩阵。
6.如权利要求5所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(31)包括:
(311)、洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ1,θ2,θ3,θ4的卷积操作C(*;θ1),C(*;θ2),C(*;θ3),C(*;θ4),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure FDA0002943769520000041
的洞卷积操作
Figure FDA0002943769520000042
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure FDA0002943769520000043
的洞卷积操作
Figure FDA0002943769520000044
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure FDA0002943769520000045
的洞卷积操作
Figure FDA0002943769520000046
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure FDA0002943769520000047
的洞卷积操作
Figure FDA0002943769520000048
四条路径分别得到不同尺度的特征d1、d2、d3、d4,通道数均为输入的
Figure FDA0002943769520000049
的一半即256,将这四个特征级联之后通过一个卷积核为1×1,步长为1,参数为θ5的卷积操作C(*;θ5),得到包含丰富多尺度上下文信息的特征
Figure FDA00029437695200000410
其通道数与输入的
Figure FDA00029437695200000411
相同;
(312)将步骤(311)中得到的多尺度特征
Figure FDA00029437695200000412
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自空间相关性矩阵Mss∈RHW×HW
(313)将原输入特征
Figure FDA00029437695200000413
用与步骤(312)相同的方式得到跨空间相关性矩阵Mcs∈RHW ×HW,作为信息补充部分;
(314)将自空间相关性矩阵Mss和跨空间相关性矩阵Mcs逐元素相加后进行归一化操作得到总空间相关性矩阵Ms∈RHW×HW,之后与多尺度特征
Figure FDA0002943769520000051
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其空间长期依赖的特征
Figure FDA0002943769520000052
7.如权利要求5所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(32)包括:
(321)洞卷积金字塔结构包含四个卷积核为1×1,步长为1,参数分别为θ6,θ7,θ8,θ9的卷积操作C(*;θ6),C(*;θ7),C(*;θ8),C(*;θ9),其中:
一个卷积核为3×3,步长为1,洞率为1,参数为
Figure FDA0002943769520000053
的洞卷积操作
Figure FDA0002943769520000054
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure FDA0002943769520000055
的洞卷积操作
Figure FDA0002943769520000056
一个卷积核为3×3,步长为1,洞率为12,参数为
Figure FDA0002943769520000057
的洞卷积操作
Figure FDA0002943769520000058
一个卷积核为3×3,步长为1,洞率为18,参数为
Figure FDA0002943769520000059
的洞卷积操作
Figure FDA00029437695200000510
四条路径分别得到不同尺度的特征d5、d6、d7、d8,通道数均为输入的
Figure FDA00029437695200000511
的一半即512,将这四个特征级联之后输入到一个卷积核为1×1,步长为1,参数为θ10的卷积操作C(*;θ10),得到包含丰富多尺度上下文信息的特征
Figure FDA0002943769520000061
其通道数与输入的
Figure FDA0002943769520000062
相同;
(322)将步骤(321)中得到的多尺度特征
Figure FDA0002943769520000063
进行尺寸变换并与其自身转置矩阵做矩阵乘法运算,得到自通道相关性矩阵Msc∈R1024×1024
(323)将原输入特征
Figure FDA0002943769520000064
用与步骤(322)相同的方式得到跨通道相关性矩阵Mcc∈R1024 ×1024,作为信息补充部分;
(324)将自通道相关性矩阵Msc和跨通道相关性矩阵Mcc逐元素相加后进行归一化操作得到总通道相关性矩阵Mc∈R1024×1024,之后与多尺度特征
Figure FDA0002943769520000065
进行逐元素相乘运算,同时还加入了跳连接路径,得到包含多尺度上下文信息及其通道长期依赖的特征
Figure FDA0002943769520000066
8.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率,再通过一个卷积核为1×1,步长为1,参数为θ11的卷积操作C(*;θ11)将通道数变为数据集类别数,最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。
CN202110187778.8A 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法 Active CN112991350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110187778.8A CN112991350B (zh) 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110187778.8A CN112991350B (zh) 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法

Publications (2)

Publication Number Publication Date
CN112991350A true CN112991350A (zh) 2021-06-18
CN112991350B CN112991350B (zh) 2023-06-27

Family

ID=76393651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110187778.8A Active CN112991350B (zh) 2021-02-18 2021-02-18 一种基于模态差异缩减的rgb-t图像语义分割方法

Country Status (1)

Country Link
CN (1) CN112991350B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362349A (zh) * 2021-07-21 2021-09-07 浙江科技学院 一种基于多监督网络的道路场景图像语义分割方法
CN113591685A (zh) * 2021-07-29 2021-11-02 武汉理工大学 一种基于多尺度池化的地理对象空间关系识别方法及***
CN114330279A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种跨模态语义连贯性恢复方法
CN114708568A (zh) * 2022-06-07 2022-07-05 东北大学 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质
CN115115919A (zh) * 2022-06-24 2022-09-27 国网智能电网研究院有限公司 一种电网设备热缺陷识别方法及装置
CN115240042A (zh) * 2022-07-05 2022-10-25 抖音视界有限公司 多模态图像识别方法、装置、可读介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228529A1 (en) * 2016-08-26 2019-07-25 Hangzhou Hikvision Digital Technology Co., Ltd. Image Segmentation Method, Apparatus, and Fully Convolutional Network System
US20190347523A1 (en) * 2018-05-14 2019-11-14 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
CN110969634A (zh) * 2019-11-29 2020-04-07 国网湖北省电力有限公司检修公司 基于生成对抗网络的红外图像电力设备分割方法
CN111462128A (zh) * 2020-05-28 2020-07-28 南京大学 一种基于多模态光谱图像的像素级图像分割***及方法
WO2020151536A1 (zh) * 2019-01-25 2020-07-30 腾讯科技(深圳)有限公司 一种脑部图像分割方法、装置、网络设备和存储介质
CN111666977A (zh) * 2020-05-09 2020-09-15 西安电子科技大学 一种单色图像的阴影检测方法
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228529A1 (en) * 2016-08-26 2019-07-25 Hangzhou Hikvision Digital Technology Co., Ltd. Image Segmentation Method, Apparatus, and Fully Convolutional Network System
US20190347523A1 (en) * 2018-05-14 2019-11-14 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
WO2020151536A1 (zh) * 2019-01-25 2020-07-30 腾讯科技(深圳)有限公司 一种脑部图像分割方法、装置、网络设备和存储介质
CN110969634A (zh) * 2019-11-29 2020-04-07 国网湖北省电力有限公司检修公司 基于生成对抗网络的红外图像电力设备分割方法
CN111666977A (zh) * 2020-05-09 2020-09-15 西安电子科技大学 一种单色图像的阴影检测方法
CN111462128A (zh) * 2020-05-28 2020-07-28 南京大学 一种基于多模态光谱图像的像素级图像分割***及方法
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIANG ZHANG 等,: "Revisiting Feature Fusion for RGB-T Salient Object Detection", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
陈丹 等,: "跨模态行人重识别研究与展望", 《计算机***应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362349A (zh) * 2021-07-21 2021-09-07 浙江科技学院 一种基于多监督网络的道路场景图像语义分割方法
CN113362349B (zh) * 2021-07-21 2024-05-10 浙江科技学院 一种基于多监督网络的道路场景图像语义分割方法
CN113591685A (zh) * 2021-07-29 2021-11-02 武汉理工大学 一种基于多尺度池化的地理对象空间关系识别方法及***
CN113591685B (zh) * 2021-07-29 2023-10-27 武汉理工大学 一种基于多尺度池化的地理对象空间关系识别方法及***
CN114330279A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种跨模态语义连贯性恢复方法
CN114330279B (zh) * 2021-12-29 2023-04-18 电子科技大学 一种跨模态语义连贯性恢复方法
CN114708568A (zh) * 2022-06-07 2022-07-05 东北大学 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质
CN114708568B (zh) * 2022-06-07 2022-10-04 东北大学 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质
CN115115919A (zh) * 2022-06-24 2022-09-27 国网智能电网研究院有限公司 一种电网设备热缺陷识别方法及装置
CN115240042A (zh) * 2022-07-05 2022-10-25 抖音视界有限公司 多模态图像识别方法、装置、可读介质和电子设备
CN115240042B (zh) * 2022-07-05 2023-05-16 抖音视界有限公司 多模态图像识别方法、装置、可读介质和电子设备

Also Published As

Publication number Publication date
CN112991350B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113344806A (zh) 一种基于全局特征融合注意力网络的图像去雾方法与***
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN112819833B (zh) 一种大场景点云语义分割方法
Gong et al. Global contextually guided lightweight network for RGB-thermal urban scene understanding
CN111241963B (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN115082675B (zh) 一种透明物体图像分割方法及***
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN115222998B (zh) 一种图像分类方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、***
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN116189306A (zh) 基于联合注意力机制的人体行为识别方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN117576402A (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN117036171A (zh) 单幅图像的蓝图可分离残差平衡蒸馏超分辨率重建模型及方法
CN116863437A (zh) 车道线检测模型训练方法、装置、设备、介质及车辆
CN116453025A (zh) 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
CN115578638A (zh) 一种基于U-Net的多层次特征交互去雾网络的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant