CN113362349A - 一种基于多监督网络的道路场景图像语义分割方法 - Google Patents

一种基于多监督网络的道路场景图像语义分割方法 Download PDF

Info

Publication number
CN113362349A
CN113362349A CN202110823118.4A CN202110823118A CN113362349A CN 113362349 A CN113362349 A CN 113362349A CN 202110823118 A CN202110823118 A CN 202110823118A CN 113362349 A CN113362349 A CN 113362349A
Authority
CN
China
Prior art keywords
module
output
layer
input
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110823118.4A
Other languages
English (en)
Other versions
CN113362349B (zh
Inventor
周武杰
董少华
强芳芳
许彩娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202110823118.4A priority Critical patent/CN113362349B/zh
Publication of CN113362349A publication Critical patent/CN113362349A/zh
Application granted granted Critical
Publication of CN113362349B publication Critical patent/CN113362349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多监督网络的道路场景图像语义分割方法。本发明包括训练阶段和测试阶段两个过程;包括:选取多幅原始道路场景RGB图像和对应的原始Thermal热红外图像以及真实语义分割图像,对图像预处理后构成训练集;构建卷积神经网络;将训练集输入到卷积神经网络中进行训练,卷积神经网络输出七个预测图集合;计算最终损失值;重复上述步骤多次,获得卷积神经网络分类训练模型;输入多幅待语义分割的原始道路场景RGB图像和原始Thermal热红外图像,获得对应的语义分割预测图。本发明提高了RGB‑T道路场景图像的语义分割效率和准确度。

Description

一种基于多监督网络的道路场景图像语义分割方法
技术领域
本发明涉及了一种基于深度学习的道路场景语义分割方法,具体是涉及了一种基于多监督网络的道路场景图像语义分割方法。
背景技术
随着无人驾驶,场景理解,虚拟现实等技术的兴起,图像的语义分割逐渐成为计算机视觉及机器学习研究人员的研究热点,从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的道路场景语义分割方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,分割精度低。
发明内容
本发明所要解决的技术问题是提供一种基于多监督网络的道路场景图像语义分割方法,其分割效率高,且分割准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于多监督网络的道路场景图像语义分割方法,方法包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:
所述的训练阶段过程的具体步骤为:
步骤1_1:选取多幅原始道路场景RGB图像和对应的原始Thermal热红外图像以及真实语义分割图像,将每幅原始道路场景RGB图像和原始Thermal热红外图像分别通过裁剪、明亮度、翻转方式进行数据增强之后获得初始道路场景RGB图像和初始Thermal热红外图像,由多幅初始道路场景RGB图像和初始Thermal热红外图像以及对应的真实语义分割图像构成训练集;
步骤1_2:构建卷积神经网络;
步骤1_3:将训练集输入到卷积神经网络中进行训练,卷积神经网络输出训练集中的每幅原始道路场景RGB图像对应的七个预测图集合;
步骤1_4:将每幅原始道路场景RGB图像对应的真实语义分割图像处理成9幅独热编码图像并将9幅独热编码图像的集合记为Jtrue,分别计算9幅独热编码图像的集合Jtrue与对应的七个预测图集合之间的损失函数值,将七个损失函数值之和作为最终损失值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,直到卷积神经网络收敛达到饱和,获得卷积神经网络分类训练模型;将此时得到的网络的权值矢量和偏置作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项;
所述的测试阶段过程的具体步骤为:
步骤2:将多幅待语义分割的原始道路场景RGB图像和原始Thermal热红外图像输入卷积神经网络分类训练模型中,利用最优权值矢量和最优偏置项进行预测,获得对应的语义分割预测图。
所述卷积神经网络包括编码模块和解码模块两部分,编码模块与解码模块相连;
编码模块包括10个编码模块,解码模块包括语义AHLS模块、多任务监督RM模块、5个信息融合FM模块、5个特征融合AMMF模块和3个语义监督MLF模块;
第一编码模块依次经第二编码模块、第三编码模块、第四编码模块和第五编码模块后与语义AHLS模块相连,第六编码模块依次经第七编码模块、第八编码模块、第九编码模块和第十编码模块后与语义AHLS模块相连,第一编码模块的输入为初始道路场景RGB图像,第六编码模块的输入为初始Thermal热红外图像;
第五编码模块、语义AHLS模块和第十编码模块与第一特征融合AMMF模块相连,第一特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第一信息融合FM模块的第一输入和第二输入中,第一信息融合FM模块的输出和语义AHLS模块的输出同时输入到第一语义监督MLF模块,第一语义监督MLF模块的输出作为卷积神经网络的第二输出;
第四编码模块的输出、第一信息融合FM模块的输出和第九编码模块的输出输入到第二特征融合AMMF模块,第二特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第二信息融合FM模块的第一输入和第二输入中,第二信息融合FM模块的输出、第三编码模块的输出和第八编码模块的输出同时输入到第三特征融合AMMF模块,第三特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第三信息融合FM模块的第一输入和第二输入中,第二信息融合FM模块的输出和第三信息融合FM模块的输出同时输入到第二语义监督MLF模块,第二语义监督MLF模块的输出作为卷积神经网络的第三输出;
第二编码模块的输出、第三信息融合FM模块的输出和第七编码模块的输出输入到第四特征融合AMMF模块,第四特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第四信息融合FM模块的第一输入和第二输入中,第四信息融合FM模块的输出、第一编码模块的输出和第六编码模块的输出输入到第五特征融合AMMF模块,第五特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第五信息融合FM模块的第一输入和第二输入中,第四信息融合FM模块的输出和第五信息融合FM模块的输出同时输入到第三语义监督MLF模块,第三语义监督MLF模块的输出作为卷积神经网络的第四输出;第五信息融合FM模块的输出作为卷积神经网络的第一输出,第五信息融合FM模块的输出输入到多任务监督RM模块,多任务监督RM模块的第一输出、第二输出和第三输出分别作为卷积神经网络的第五输出、第六输出和第七输出。
所述第一编码模块和第六编码模块结构相同,主要由第一卷积层、第一批归一化层和第一激活层依次连接组成;
所述第二编码模块和第七编码模块结构相同,主要由第一下采样层、第一残差单元和两个第二残差单元依次连接组成;
所述第三编码模块和第八编码模块结构相同,主要由第一残差单元和七个第二残差单元依次连接组成;
所述第四编码模块和第九编码模块结构相同,主要由第一残差单元和35个第二残差单元依次连接组成;
所述第五编码模块和第十编码模块结构相同,主要由第一残差单元和二个第二残差单元依次连接组成。
所述第一残差单元包括第二卷积层、第二归一化层、第三卷积层、第三归一化层、第四卷积层、第四归一化层、第二激活层、第五卷积层、第五归一化层和第三激活层;
第二卷积层依次经第二归一化层、第三卷积层、第三归一化层、第四卷积层和第四归一化层后与第二激活层相连,第一残差单元的输入为第二卷积层的输入,第二卷积层的输入还输入到第五卷积层,第五卷积层与第五归一化层相连,第二激活层的输出和第五归一化层输出进行相加后的输出输入到第三激活层,第三激活层的输出作为第一残差单元的输出;
所述第二残差单元包括第六卷积层、第六归一化层、第七卷积层、第七归一化层、第八卷积层、第八归一化层、第四激活层和第五激活层;
第六卷积层依次经第六归一化层、第七卷积层、第七归一化层、第八卷积层和第八归一化层后与第四激活层相连,第二残差单元的输入为第六卷积层的输入,第四激活层的输出与第六卷积层的输入进行相加后的输出输入到第五激活层,第五激活层的输出作为第二残差单元的输出。
所述5个信息融合FM模块结构相同,具体为:
包括第四上采样层、第二十二卷积层和第二十三卷积层;每个信息融合FM模块有两个输入和一个输出,信息融合FM模块的第二输入输入到第四上采样层,第四上采样层与第二十二卷积层相连,第二十二卷积层的输出与信息融合FM模块的第一输入进行级联后的输出输入到第二十三卷积层,第二十三卷积层的输出作为信息融合FM模块的输出。
所述语义AHLS模块包括两个第一卷积模块、两个第一注意力机制模块、一个第二卷积模块和一个第二注意力机制模块;
语义AHLS模块有两个输入,语义AHLS模块的第一输入经一个第一卷积模块后与一个第一注意力机制模块相连,语义AHLS模块的第二输入经另一个第一卷积模块后与另一个第一注意力机制模块相连,两个第一注意力机制模块的输出进行级联后的输出输入到第二卷积模块,第二卷积模块与第二注意力机制模块相连,第二注意力机制模块的输出作为语义AHLS模块的输出;
所述第一卷积模块主要由第九卷积层组成;所述第一注意力机制模块主要由第一池化层、第一全连接层、第六激活层、第二全连接层、第七激活层、第三全连接层、第八激活层和第十卷积层依次连接组成;
所述第二卷积模块主要由第十一卷积层、第九归一化层和第九激活层依次连接组成;所述第二注意力机制模块与第一注意力机制模块结构相同。
所述5个特征融合AMMF模块结构相同,具体为:
包括第一交融模块、第二交融模块、第十二卷积层、第一上采样层和第十三卷积层;
特征融合AMMF模块的第一输入与第一编码模块、第二编码模块、第三编码模块、第四编码模块或第五编码模块相连,特征融合AMMF模块的第二输入与第六编码模块、第七编码模块、第八编码模块、第九编码模块或第十编码模块相连,特征融合AMMF模块的第三输入与语义AHLS模块、第一融合特征输出、第二融合特征输出、第三融合特征输出或第四融合特征输出相连;
特征融合AMMF模块的第一输入和第二输入进行相乘后的输出作为第一融合输出,第一融合输出与特征融合AMMF模块的第一输入和第二输入进行相乘后的输出作为第二融合输出,第二融合输出与特征融合AMMF模块的第二输入进行级联后的输出输入到第一交融模块,第一交融模块的输出与特征融合AMMF模块的第三输入进行级联后的输出输入到第二交融模块,第一交融模块依次经第十二卷积层和第一上采样层后与第十三卷积层相连,第十三卷积层的输出作为特征融合AMMF模块的输出;
所述第一交融模块和第二交融模块结构相同,包括第十四卷积层、第十归一化层、第十激活层、第十五卷积层、第十一归一化层和第十激活层;
第十四卷积层依次经第十归一化层、第十激活层和第十五卷积层后与第十一归一化层相连,交融模块的输入为第十四卷积层的输入,第十四卷积层的输入与第十一归一化层的输出进行相加后的输出输入到第十激活层,第十激活层的输出作为交融模块的输出。
所述3个语义监督MLF模块结构相同,具体为:
包括第二上采样层、第十六卷积层、第三上采样层和第十七卷积层;语义监督MLF模块的第一输入与语义AHLS模块、第二融合特征输出或第四融合特征输出相连,语义监督MLF模块的第二输入与第一融合特征输出、第三融合特征输出或第五融合特征输出相连;
语义监督MLF模块的第一输入经第二上采样层后与第十六卷积层相连,第十六卷积层的输出与语义监督MLF模块的第二输入进行级联后的输出经第三上采样层后与第十七卷积层相连,第十七卷积层的输出作为语义监督MLF模块的输出。
所述多任务监督RM模块包括第十八卷积层、第十九卷积层、第二十卷积层、exp函数层、第一多任务模块、第二多任务模块和第三多任务模块;
多任务监督RM模块的输入为第十八卷积层的输入,第十八卷积层经第一多任务模块后的输出作为多任务监督RM模块的第一输出,多任务监督RM模块的第一输出经exp函数层的输出与第十八卷积层的输出进行相乘后的输出输入到第二多任务模块,第二多任务模块的输出经第十九卷积层后的输出作为多任务监督RM模块的第三输出,第二多任务模块的输出与第十八卷积层的输出进行级联后的输出经第三多任务模块后与第二十卷积层相连,第二十卷积层的输出作为多任务监督RM模块的第二输出;
所述第一多任务模块、第二多任务模块和第三多任务模块结构相同,均主要由第二十一卷积层、第十二归一化层和第十二激活层依次连接组成。
所述七个预测图集合中每幅预测图的大小均与初始道路场景RGB图像的大小相同,七个预测图集合包括语义分割预测图集合Jpre1、高级语义预测图集合Jpre2、中级语义预测图集合Jpre3、低级语义预测图集合Jpre4、前景-背景预测图集合Jpre5、边界预测图集合Jpre6和语义预测图集合Jpre7;
语义分割预测图集合Jpre1是由卷积神经网络的第一输出的9幅语义分割预测图ffinal组成,高级语义预测图集合Jpre2是由卷积神经网络的第二输出的9幅高级语义预测图fhigh组成,中级语义预测图集合Jpre3是由卷积神经网络的第三输出的9幅中级语义预测图fmid组成,低级语义预测图集合Jpre4是由卷积神经网络的第四输出的9幅低级语义预测图flow组成,前景-背景预测图集合Jpre5是由卷积神经网络的第五输出的9幅前景-背景预测图fbin组成,边界预测图集合Jpre6是由卷积神经网络的第六输出的9幅边界预测图fbou组成,语义预测图集合Jpre7是由卷积神经网络的第七输出的9幅语义预测图fsem组成,卷积神经网络的第七输出作为测试阶段过程中输出的语义分割预测图。
与现有技术相比,本发明的优点在于:
1)本发明方法构建卷积神经网络,使用训练集中的道路场景RGBT图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的道路场景RGBT图像输入到卷积神经网络分类训练模型中,预测得到道路场景图像对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时使用了新的融合方法,使网络可以更好的学习RGB,T信息和上一级的输出信息,充分利用了特征的信息,因此能够比较准确地描述道路场景中各种分类目标,从而有效地提高了道路场景图像的语义分割精确度。
2)本发明方法采用了多任务监督,分别对输出的分割图像进行语义监督,边界监督和前景-背景监督,有效的提高了语义分割精度。
3)本发明方法在将编码部分网络分为高,中,低三部分,并在三部分对输出的预测图进行语义监督,进而在训练集和测试集上都获得了很好的分割效果。
4)本发明方法充分利用了高级语义,将高级语义和低级信息相结合,充分利用了网络的各层信息,使分割结果更加准确。
附图说明
图1为本发明方法的总体实现框图;
图2为高级语义AHLS模块的实现框图。
图3为解码阶段特征融合AMMF模块的实现框图。
图4为解码阶段高级语义与低级信息融合FM模块的实现框图。
图5为高中低三层语义监督MLF模块的实现框图。
图6为多任务监督RM模块的实现框图。
图7a为第一幅原始道路场景RGB图像;
图7b为利用本发明方法对图7a所示的第一幅原始道路场景RGB图像进行分割,所得到的分割图像;
图8a为第二幅原始道路场景RGB图像;
图8b为利用本发明方法对图8a所示的第二幅原始道路场景RGB图像进行分割,所得到的分割图像;
图9a为第三幅原始道路场景RGB图像;
图9b为利用本发明方法对图9a所示的第三幅原始道路场景RGB图像进行分割,所得到的分割图像;
图10a为第四幅原始道路场景RGB图像;
图10b为利用本发明方法对图10a所示的第四幅原始道路场景RGB图像进行分割,所得到的分割图像;
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于多监督网络的RGBT道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
训练阶段过程的具体步骤为:
步骤1_1:选取多幅原始道路场景RGB图像和对应的原始Thermal热红外图像以及真实语义分割图像,具体实施中,选取784幅原始道路场景RGB图像和对应的原始Thermal热红外图像以及真实语义分割图像,其中的原始道路场景RGB图像和对应的原始Thermal热红外图像作为原始道路场景图像,原始道路场景图像的集合记为{J(i,j)},将对应的真实语义分割图像的集合记为{Jtrue(i,j)},然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始道路场景RGB图像对应的真实语义分割图像处理成9幅独热编码图像,将{Jtrue(i,j)}处理成9幅独热编码图像构成的集合记为Jtrue。其中原始道路场景图像的高为480,宽为640,1≤i≤640,1≤j≤480,J(i,j)表示原始道路场景图像的集合{J(i,j)}中坐标位置为(i,j)的像素点的像素值,Jtrue(i,j)表示真实语义分割图像的集合{Jtrue(i,j)}中坐标位置为(i,j)的像素点的像素值。将每幅原始道路场景RGB图像和原始Thermal热红外图像分别通过裁剪、明亮度、翻转方式进行数据增强之后获得初始道路场景RGB图像和初始Thermal热红外图像,裁剪是保持尺寸不变的裁剪方法,具体实现是通过对裁掉的部分进行补0;批次大小为4,由多幅初始道路场景RGB图像和初始Thermal热红外图像以及对应的真实语义分割图像构成训练集;
步骤1_2:构建卷积神经网络;
如图1所示,卷积神经网络包括编码模块和解码模块两部分,分别对初始道路场景RGB图像和对应的初始Thermal热红外图像进行特征提取操作和上采样操作,编码模块与解码模块相连;
编码模块包括10个编码模块,解码模块包括语义AHLS模块、多任务监督RM模块、5个信息融合FM模块、5个特征融合AMMF模块和3个语义监督MLF模块;语义AHLS模块用于生成高级语义;特征融合AMMF模块用于融合RGB信息,Thermal信息和上一级输出信息;语义监督MLF模块用于融合高级,中级,低级语义信息;RM模块用于语义监督,边界监督,前景-背景监督。信息融合FM模块用于融合高级语义与低级信息的。
第一编码模块依次经第二编码模块、第三编码模块、第四编码模块和第五编码模块后与语义AHLS模块相连,第六编码模块依次经第七编码模块、第八编码模块、第九编码模块和第十编码模块后与语义AHLS模块相连,第一编码模块的输入为初始道路场景RGB图像,第六编码模块的输入为初始Thermal热红外图像;
第五编码模块、语义AHLS模块和第十编码模块与第一特征融合AMMF模块相连,第一特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第一信息融合FM模块的第一输入和第二输入中,第一信息融合FM模块的输出和语义AHLS模块的输出同时输入到第一语义监督MLF模块,第一语义监督MLF模块的输出作为卷积神经网络的第二输出;
第四编码模块的输出、第一信息融合FM模块的输出和第九编码模块的输出输入到第二特征融合AMMF模块,第二特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第二信息融合FM模块的第一输入和第二输入中,第二信息融合FM模块的输出、第三编码模块的输出和第八编码模块的输出同时输入到第三特征融合AMMF模块,第三特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第三信息融合FM模块的第一输入和第二输入中,第二信息融合FM模块的输出和第三信息融合FM模块的输出同时输入到第二语义监督MLF模块,第二语义监督MLF模块的输出作为卷积神经网络的第三输出;
第二编码模块的输出、第三信息融合FM模块的输出和第七编码模块的输出输入到第四特征融合AMMF模块,第四特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第四信息融合FM模块的第一输入和第二输入中,第四信息融合FM模块的输出、第一编码模块的输出和第六编码模块的输出输入到第五特征融合AMMF模块,第五特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第五信息融合FM模块的第一输入和第二输入中,第四信息融合FM模块的输出和第五信息融合FM模块的输出同时输入到第三语义监督MLF模块,第三语义监督MLF模块的输出作为卷积神经网络的第四输出;第五信息融合FM模块的输出作为卷积神经网络的第一输出,第五信息融合FM模块的输出输入到多任务监督RM模块,多任务监督RM模块的第一输出、第二输出和第三输出分别作为卷积神经网络的第五输出、第六输出和第七输出。
第一编码模块和第六编码模块结构相同,主要由第一卷积层、第一批归一化层和第一激活层依次连接组成;
第二编码模块和第七编码模块结构相同,主要由第一下采样层、第一残差单元和两个第二残差单元依次连接组成;第一下采样层具体为最大池化下采样。
第三编码模块和第八编码模块结构相同,主要由第一残差单元和七个第二残差单元依次连接组成;
第四编码模块和第九编码模块结构相同,主要由第一残差单元和35个第二残差单元依次连接组成;
第五编码模块和第十编码模块结构相同,主要由第一残差单元和二个第二残差单元依次连接组成。
第一残差单元包括第二卷积层、第二归一化层、第三卷积层、第三归一化层、第四卷积层、第四归一化层、第二激活层、第五卷积层、第五归一化层和第三激活层;
第二卷积层依次经第二归一化层、第三卷积层、第三归一化层、第四卷积层和第四归一化层后与第二激活层相连,第一残差单元的输入为第二卷积层的输入,第二卷积层的输入还输入到第五卷积层,第五卷积层与第五归一化层相连,第二激活层的输出和第五归一化层输出进行相加后的输出输入到第三激活层,第三激活层的输出作为第一残差单元的输出。第三激活层的激活函数为Relu激活函数。
第二残差单元包括第六卷积层、第六归一化层、第七卷积层、第七归一化层、第八卷积层、第八归一化层、第四激活层和第五激活层;
第六卷积层依次经第六归一化层、第七卷积层、第七归一化层、第八卷积层和第八归一化层后与第四激活层相连,第二残差单元的输入为第六卷积层的输入,第四激活层的输出与第六卷积层的输入进行相加后的输出输入到第五激活层,第五激活层的输出作为第二残差单元的输出。第五激活层的激活函数为Relu激活函数。
如图4所示,5个信息融合FM模块结构相同,具体为:
包括第四上采样层、第二十二卷积层和第二十三卷积层;每个信息融合FM模块有两个输入和一个输出,信息融合FM模块的第二输入输入到第四上采样层,第四上采样层与第二十二卷积层相连,第二十二卷积层的输出与信息融合FM模块的第一输入进行级联后的输出输入到第二十三卷积层,第二十三卷积层的输出作为信息融合FM模块的输出。
如图2所示,语义AHLS模块包括两个第一卷积模块、两个第一注意力机制模块、一个第二卷积模块和一个第二注意力机制模块;
语义AHLS模块有两个输入,语义AHLS模块的第一输入经一个第一卷积模块后与一个第一注意力机制模块相连,语义AHLS模块的第二输入经另一个第一卷积模块后与另一个第一注意力机制模块相连,两个第一注意力机制模块的输出进行级联后的输出输入到第二卷积模块,第二卷积模块与第二注意力机制模块相连,第二注意力机制模块的输出作为语义AHLS模块的输出;
第一卷积模块主要由第九卷积层组成;第一注意力机制模块主要由第一池化层、第一全连接层、第六激活层、第二全连接层、第七激活层、第三全连接层、第八激活层和第十卷积层依次连接组成;
第二卷积模块主要由第十一卷积层、第九归一化层和第九激活层依次连接组成;第二注意力机制模块与第一注意力机制模块结构相同。
如图3所示,5个特征融合AMMF模块结构相同,具体为:
包括第一交融模块、第二交融模块、第十二卷积层、第一上采样层和第十三卷积层;
特征融合AMMF模块的第一输入与第一编码模块、第二编码模块、第三编码模块、第四编码模块或第五编码模块相连,特征融合AMMF模块的第二输入与第六编码模块、第七编码模块、第八编码模块、第九编码模块或第十编码模块相连,特征融合AMMF模块的第三输入与语义AHLS模块、第一融合特征输出、第二融合特征输出、第三融合特征输出或第四融合特征输出相连;
特征融合AMMF模块的第一输入和第二输入进行相乘后的输出作为第一融合输出,第一融合输出与特征融合AMMF模块的第一输入和第二输入进行相乘后的输出作为第二融合输出,第二融合输出与特征融合AMMF模块的第二输入进行级联后的输出输入到第一交融模块,第一交融模块的输出与特征融合AMMF模块的第三输入进行级联后的输出输入到第二交融模块,第一交融模块依次经第十二卷积层和第一上采样层后与第十三卷积层相连,第十三卷积层的输出作为特征融合AMMF模块的输出;
第一交融模块和第二交融模块结构相同,包括第十四卷积层、第十归一化层、第十激活层、第十五卷积层、第十一归一化层和第十激活层;
第十四卷积层依次经第十归一化层、第十激活层和第十五卷积层后与第十一归一化层相连,交融模块的输入为第十四卷积层的输入,第十四卷积层的输入与第十一归一化层的输出进行相加后的输出输入到第十激活层,第十激活层的输出作为交融模块的输出。第十激活层的激活函数为Relu激活函数。
如图5所示,3个语义监督MLF模块结构相同,具体为:
包括第二上采样层、第十六卷积层、第三上采样层和第十七卷积层;语义监督MLF模块的第一输入与语义AHLS模块、第二融合特征输出或第四融合特征输出相连,语义监督MLF模块的第二输入与第一融合特征输出、第三融合特征输出或第五融合特征输出相连;
语义监督MLF模块的第一输入经第二上采样层后与第十六卷积层相连,第十六卷积层的输出与语义监督MLF模块的第二输入进行级联后的输出经第三上采样层后与第十七卷积层相连,第十七卷积层的输出作为语义监督MLF模块的输出。
如图6所示,多任务监督RM模块包括第十八卷积层、第十九卷积层、第二十卷积层、exp函数层、第一多任务模块、第二多任务模块和第三多任务模块;
多任务监督RM模块的输入为第十八卷积层的输入,第十八卷积层经第一多任务模块后的输出作为多任务监督RM模块的第一输出,多任务监督RM模块的第一输出经exp函数层的输出与第十八卷积层的输出进行相乘后的输出输入到第二多任务模块,第二多任务模块的输出经第十九卷积层后的输出作为多任务监督RM模块的第三输出,第二多任务模块的输出与第十八卷积层的输出进行级联后的输出经第三多任务模块后与第二十卷积层相连,第二十卷积层的输出作为多任务监督RM模块的第二输出;
第一多任务模块、第二多任务模块和第三多任务模块结构相同,均主要由第二十一卷积层、第十二归一化层和第十二激活层依次连接组成。
对于第1个编码模块,其由依次设置的第一卷积层(Convolution,Conv),第一批量归一化层(BatchNorm),第一激活层(Activation,Act)组成。其中第一卷积层采用卷积核(kernel_size)大小为7,步长(stride)为2,边缘填充(padding)为3,卷积核个数为64。第1个卷积块的输入端接收原始输入图像的RGB三通道分量,要求输入端接收的原始输入图像的宽度为W、高度为H。经过第一批量归一化层的归一化操作之后再经过第一激活层(激活方式为Relu)输出64幅输出特征图,将64副特征图构成的集合记为N1;其中每幅特征图的宽度为
Figure BDA0003172576900000121
高度为
Figure BDA0003172576900000122
对于第2个编码模块,依次由1个下采样层和3个残差单元组成。其中,第1个下采样层所采用的是最大池化下采样,卷积核大小为3×3,步长为2,填充系数为1。对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为1;一层归一化层组成,输出通道数为256。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第2个编码模块的输入端接收N1中的所有特征图,输出端输出256副特征图,将256副特征图构成的集合记为N2,其中每幅特征图的宽度为
Figure BDA0003172576900000131
高度为
Figure BDA0003172576900000132
对于第3个编码模块,依次由8个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为512。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第3个编码模块的输入端接收N2中的所有特征图,输出端输出512副特征图,将512副特征图构成的集合记为N3,其中每幅特征图的宽度为
Figure BDA0003172576900000141
高度为
Figure BDA0003172576900000142
对于第4个编码模块,依次由36个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为1024。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第4个编码模块的输入端接收N3中的所有特征图,输出端输出1024副特征图,将1024副特征图构成的集合记为N4,其中每幅特征图的宽度为
Figure BDA0003172576900000143
高度为
Figure BDA0003172576900000144
对于第5个编码模块,依次由3个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为2048。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第5个编码模块的输入端接收N4中的所有特征图,输出端输出2048副特征图,将2048副特征图构成的集合记为N5,其中每幅特征图的宽度为
Figure BDA0003172576900000151
高度为
Figure BDA0003172576900000152
对于第6个编码模块,其由依次设置的第一卷积层(Convolution,Conv),第一批量归一化层(BatchNorm),第一激活层(Activation,Act)组成。其中第一卷积层采用卷积核(kernel_size)大小为7,步长(stride)为2,边缘填充(padding)为3,卷积核个数为64。第6个卷积块的输入端接收原始输入图像的Thermal单通道分量,要求输入端接收的原始输入图像的宽度为W、高度为H。经过第一批量归一化层的归一化操作之后再经过第一激活层(激活方式为Relu)输出64幅输出特征图,将64副特征图构成的集合记为N6;其中每幅特征图的宽度为
Figure BDA0003172576900000153
高度为
Figure BDA0003172576900000154
对于第7个编码模块,依次由1个下采样层和3个残差单元组成。其中,第1个下采样层所采用的是最大池化下采样,卷积核大小为3×3,步长为2,填充系数为1。对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为1;一层归一化层组成,输出通道数为256。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第7个编码模块的输入端接收N6中的所有特征图,输出端输出256副特征图,将256副特征图构成的集合记为N7,其中每幅特征图的宽度为
Figure BDA0003172576900000161
高度为
Figure BDA0003172576900000162
对于第8个编码模块,依次由8个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为512。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第8个编码模块的输入端接收N7中的所有特征图,输出端输出512副特征图,将512副特征图构成的集合记为N8,其中每幅特征图的宽度为
Figure BDA0003172576900000171
高度为
Figure BDA0003172576900000172
对于第9个编码模块,依次由36个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为1024。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第9个编码模块的输入端接收N8中的所有特征图,输出端输出1024副特征图,将1024副特征图构成的集合记为N9,其中每幅特征图的宽度为
Figure BDA0003172576900000173
高度为
Figure BDA0003172576900000174
对于第10个编码模块,依次由3个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为2048。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第10个编码模块的输入端接收N9中的所有特征图,输出端输出2048副特征图,将2048副特征图构成的集合记为N10,其中每幅特征图的宽度为
Figure BDA0003172576900000181
高度为
Figure BDA0003172576900000182
对于高级语义AHLS模块。依次由第一个卷积模块,第一个注意力机制模块,Tensor拼接层,第二个卷积模块,第二个注意力机制模块组成。其中第一个卷积模块卷积核大小为1,步长为1,卷积核个数为64。第一个注意力模块依次由全局最大池化层,第一个全连接层,第一个激活函数,第二个全连接层,第二个激活函数,第三个全连接层,Sigmoid函数和卷积核大小为1,步长为1的卷积组成。Tensor拼接操作是将两个输入特征在通道维度上进行拼接。第二个卷积模块依次由卷积核大小为3,步长为1的卷积层,归一化层和激活层组成。第二个注意力机制模块和第一个注意力机制模块完全相同。将第5个编码模块的RGB输出记为R5,将第10个编码模块的Thermal输出记为T5。将R5和T5依次输入到第一个卷积模块和第一个注意力机制模块,输出分别为
Figure BDA0003172576900000183
Figure BDA0003172576900000184
然后将
Figure BDA0003172576900000185
Figure BDA0003172576900000186
输入到Tensor拼接层,输出为fout;最后将fout依次输入到第二个卷积模块和第二个注意力机制模块,输出高级语义fhigh
对于第一个特征融合AMMF模块1。将第5个编码模块的RGB输出记为R5,将第10个编码模块的Thermal输出记为T5。将R5和T5依次输入到与上述AHLS模块中的第一个卷积模块和第一个注意力机制模块相同的模块之中,输出分别为
Figure BDA0003172576900000191
Figure BDA0003172576900000192
将生成的
Figure BDA0003172576900000193
Figure BDA0003172576900000194
进行点乘操作,得到输出
Figure BDA0003172576900000195
接着将
Figure BDA0003172576900000196
相加得到
Figure BDA0003172576900000197
之后将
Figure BDA0003172576900000198
Figure BDA0003172576900000199
进行拼接操作得到
Figure BDA00031725769000001910
然后将
Figure BDA00031725769000001911
输入到第一个交融模块得到
Figure BDA00031725769000001912
其中第一个交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的fhigh
Figure BDA00031725769000001913
进行拼接操作得到
Figure BDA00031725769000001914
Figure BDA00031725769000001915
输入到第二个交融模块得到输出
Figure BDA00031725769000001916
其中第二个交融模块与第一个交融模块完全相同;接着
Figure BDA00031725769000001917
经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出
Figure BDA00031725769000001918
然后
Figure BDA00031725769000001919
经过双线性插值上采样操作得到
Figure BDA00031725769000001920
然后将
Figure BDA00031725769000001921
经过卷积核为1,步长为1,卷积核个数为64的卷积层得到第一个特征融合AMMF模块1的输出
Figure BDA00031725769000001922
此时特征图的大小变为原来的2倍,每幅特征图的宽度为
Figure BDA00031725769000001923
高度为
Figure BDA00031725769000001924
由于该网络模型使用的跳跃连接具体为信息融合FM模块,第一信息融合FM模块将第一个特征融合AMMF模块1的输出
Figure BDA00031725769000001925
与上述高级语义fhigh依次经过2倍双线性插值上采样、卷积核为1,步长为1,卷积核个数为64卷积层的后得到的输出f1 high进行拼接操作,得到输出
Figure BDA0003172576900000201
最后将
Figure BDA0003172576900000202
输入到卷积核为1,步长为1,卷积核个数为64的卷积层中,得到最后的输出f4。此时输出端输出64副特征图,其中每幅特征图的宽度为
Figure BDA0003172576900000203
高度为
Figure BDA0003172576900000204
对于第二个特征融合AMMF模块2。将第4个编码模块的RGB输出记为R4,将第9个编码模块的Thermal输出记为T4。将R4和T4依次输入到与上述AHLS模块中的第一个卷积模块和第一个注意力机制模块相同的模块之中,输出分别为
Figure BDA0003172576900000205
Figure BDA0003172576900000206
将生成的
Figure BDA0003172576900000207
Figure BDA0003172576900000208
进行点乘操作,得到输出
Figure BDA0003172576900000209
接着将
Figure BDA00031725769000002010
相加得到
Figure BDA00031725769000002011
之后将
Figure BDA00031725769000002012
Figure BDA00031725769000002013
进行拼接操作得到
Figure BDA00031725769000002014
然后将
Figure BDA00031725769000002015
输入到第一个交融模块得到
Figure BDA00031725769000002016
其中第一个交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的f4
Figure BDA00031725769000002017
进行拼接操作得到
Figure BDA00031725769000002018
Figure BDA00031725769000002019
输入到第二个交融模块得到输出
Figure BDA00031725769000002020
其中第二个交融模块与第一个交融模块完全相同;接着
Figure BDA00031725769000002021
经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出
Figure BDA00031725769000002022
然后
Figure BDA00031725769000002023
经过双线性插值上采样操作得到
Figure BDA00031725769000002024
然后将
Figure BDA00031725769000002025
经过卷积核为1,步长为1,卷积核个数为64的卷积层得到第二个融合模块RAMMF2的输出
Figure BDA00031725769000002026
此时特征图的大小变为原来的2倍,每幅特征图的宽度为
Figure BDA00031725769000002027
高度为
Figure BDA00031725769000002028
由于模型存在跳跃连接,第二信息融合FM模块将第二个特征融合AMMF模块2的得到的输出
Figure BDA0003172576900000211
与上述fhigh依次经过4倍双线性插值上采样、卷积核为1,步长为1,卷积核个数为64的卷积层后得到的输出
Figure BDA0003172576900000212
进行拼接操作,得到输出
Figure BDA0003172576900000213
最后将
Figure BDA0003172576900000214
输入到卷积核为1,步长为1,卷积核个数为64的卷积层中,得到最后的输出f3。此时输出端输出64副特征图,其中每幅特征图的宽度为
Figure BDA0003172576900000215
高度为
Figure BDA0003172576900000216
对于第三个特征融合AMMF模块3。将第3个编码模块的RGB输出记为R3,将第8个编码模块的Thermal输出记为T3。将R3和T3依次输入到与上述AHLS模块中的第一个卷积模块和第一个注意力机制模块相同的模块之中,输出分别为
Figure BDA0003172576900000217
Figure BDA0003172576900000218
将生成的
Figure BDA0003172576900000219
Figure BDA00031725769000002110
进行点乘操作,得到输出
Figure BDA00031725769000002111
接着将
Figure BDA00031725769000002112
相加得到
Figure BDA00031725769000002113
之后将
Figure BDA00031725769000002114
Figure BDA00031725769000002115
进行拼接操作得到
Figure BDA00031725769000002116
然后将
Figure BDA00031725769000002117
输入到第一个交融模块得到
Figure BDA00031725769000002118
其中第一个交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的f3
Figure BDA00031725769000002119
进行拼接操作得到
Figure BDA00031725769000002120
Figure BDA00031725769000002121
输入到第二个交融模块得到输出
Figure BDA00031725769000002122
其中第二个交融模块与第一个交融模块完全相同;接着
Figure BDA00031725769000002123
经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出
Figure BDA00031725769000002124
然后
Figure BDA00031725769000002125
经过双线性插值上采样操作得到
Figure BDA00031725769000002126
然后将
Figure BDA00031725769000002127
经过卷积核为1,步长为1,卷积核个数为64的卷积层得到第三个融合模块RAMMF3的输出
Figure BDA0003172576900000221
此时特征图的大小变为原来的2倍,每幅特征图的宽度为
Figure BDA0003172576900000222
高度为
Figure BDA0003172576900000223
由于模型存在跳跃连接,第三信息融合FM模块将第三个特征融合AMMF模块3的输出
Figure BDA0003172576900000224
与上述fhigh依次经过8倍双线性插值上采样、卷积核为1,步长为1,卷积核个数为64的卷积层后得到的输出
Figure BDA0003172576900000225
进行拼接操作,得到输出
Figure BDA0003172576900000226
最后将
Figure BDA0003172576900000227
输入到卷积核为1,步长为1,卷积核个数为64的卷积层中,得到最后的输出f2。此时输出端输出64副特征图,其中每幅特征图的宽度为
Figure BDA0003172576900000228
高度为
Figure BDA0003172576900000229
对于第四个特征融合AMMF模块4。将第2个编码模块的RGB输出记为R2,将第7个编码模块的Thermal输出记为T2。将R2和T2依次输入到与上述AHLS模块中的第一个卷积模块和第一个注意力机制模块相同的模块之中,输出分别为
Figure BDA00031725769000002210
Figure BDA00031725769000002211
将生成的
Figure BDA00031725769000002212
Figure BDA00031725769000002213
进行点乘操作,得到输出f1 out1;接着将
Figure BDA00031725769000002214
f1 out1相加得到f1 out2;之后将
Figure BDA00031725769000002215
和f1 out2进行拼接操作得到f1 out3;然后将f1 out3输入到第一个交融模块得到f1 out4,其中第一个交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的f2与f1 out4进行拼接操作得到f1 out5;将f1 out5输入到第二个交融模块得到输出f1 out6,其中第二个交融模块与第一个交融模块完全相同;接着f1 out6经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出f1 out7;然后f1 out7经过双线性插值上采样操作得到f1 out8,此时特征图的大小变为原来的2倍,每幅特征图的宽度为
Figure BDA0003172576900000231
高度为
Figure BDA0003172576900000232
然后将f1 out8经过卷积核为1,步长为1,卷积核个数为64的卷积层得到第四个融合模块RAMMF4的输出f1 out9,此时特征图的大小变为原来的2倍,每幅特征图的宽度为
Figure BDA0003172576900000234
高度为
Figure BDA0003172576900000235
由于网络存在跳跃连接,第四信息融合FM模块将第四个特征融合AMMF模块4的输出f1 out9与上述fhigh依次经过16倍双线性插值上采样、卷积核为1,步长为1,卷积核个数为64的卷积层后得到的输出
Figure BDA0003172576900000236
进行拼接操作,得到输出f1 out10;最后将f1 out10输入到卷积核为1,步长为1,卷积核个数为64的卷积层中,得到最后的输出f1。此时输出端输出64副特征图,其中每幅特征图的宽度为
Figure BDA0003172576900000237
高度为
Figure BDA0003172576900000238
对于第五个特征融合AMMF模块5。将第1个编码模块的RGB输出记为R1,将第6个编码模块的Thermal输出记为T1。将R1和T1依次输入到与上述AHLS模块中的第一个卷积模块和第一个注意力机制模块相同的模块之中,输出分别为
Figure BDA0003172576900000239
和T1 out;将生成的
Figure BDA00031725769000002310
和T1 out进行点乘操作,得到输出f0 out1;接着将
Figure BDA00031725769000002312
T1 out,f0 out1相加得到f0 out2;之后将
Figure BDA00031725769000002313
和f0 out2进行拼接操作得到f0 out3;然后将f0 out3输入到第一个交融模块得到f0 out4,其中第一个交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的f1与f0 out4进行拼接操作得到f0 out5;将f0 out5输入到第二个交融模块得到输出f0 out6,其中第二个交融模块与第一个交融模块完全相同;接着f0 out6经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出f0 out7;然后f0 out7经过双线性插值上采样操作得到f0 out8,然后将f0 out8经过卷积核为1,步长为1,卷积核个数为64的卷积层得到第五个融合模块RAMMF5的输出f0 out9,此时特征图的大小变为原来的2倍,每幅特征图的宽度为W、高度为H。
由于网络存在跳跃连接,第五信息融合FM模块将第五个特征融合AMMF模块5的输出f0 out9与上述fhigh依次经过32倍双线性插值上采样、卷积核为1,步长为1,卷积核个数为64的卷积层后得到的输出f5 high进行拼接操作,得到输出f0 out10;最后将f0 out10输入到卷积核为1,步长为1,卷积核个数为64的卷积层中,得到输出f0;将得到的输出f0经过卷积核为1,步长为1,卷积核个数为9的卷积层,得到语义预测输出ffinal,此时输出端输出9副特征图,其中每幅特征图的宽度为W、高度为H。
对于高级信息语义监督MLF模块1。将上述高级语义信息fhigh进行2倍双线性插值上采样得到输出
Figure BDA0003172576900000245
然后将
Figure BDA0003172576900000246
经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出
Figure BDA0003172576900000247
然后将
Figure BDA0003172576900000248
与上述得到的的输出f4进行相加得到输出
Figure BDA0003172576900000249
此时每幅特征图的宽度为
Figure BDA0003172576900000241
高度为
Figure BDA0003172576900000242
通道数为64;接着将
Figure BDA00031725769000002410
进行16倍双线性插值上采样得到输出
Figure BDA00031725769000002411
最后将
Figure BDA00031725769000002412
经过卷积核为1,步长为1,卷积核个数为9的卷积层,得到最终输出fhigh,此时每幅特征图的宽度为W、高度为H,通道数为9。
对于中级信息语义监督MLF模块2。将上述得到的输出f3进行2倍双线性插值上采样得到输出
Figure BDA00031725769000002413
然后将
Figure BDA00031725769000002414
经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出
Figure BDA00031725769000002415
然后将
Figure BDA00031725769000002416
与上述得到的输出f2进行相加得到输出
Figure BDA00031725769000002417
此时每幅特征图的宽度为
Figure BDA0003172576900000243
高度为
Figure BDA0003172576900000244
通道数为64;接着将
Figure BDA00031725769000002418
进行4倍双线性插值上采样得到输出
Figure BDA00031725769000002419
最后将
Figure BDA00031725769000002420
经过卷积核为1,步长为1,卷积核个数为9的卷积层,得到最终输出fmid,此时每幅特征图的宽度为W、高度为H,通道数为9。
对于低级信息语义监督MLF模块3。将上述得到的输出f1进行2倍双线性插值上采样得到输出
Figure BDA0003172576900000251
然后将
Figure BDA0003172576900000252
经过卷积核为1,步长为1,卷积核个数为64的卷积层,得到输出
Figure BDA0003172576900000253
然后将
Figure BDA0003172576900000254
与上述得到的输出f0进行相加得到输出
Figure BDA0003172576900000255
此时每幅特征图的宽度为W、高度为H,通道数为64;最后将
Figure BDA0003172576900000256
经过卷积核为1,步长为1,卷积核个数为9的卷积层,得到最终输出flow,此时每幅特征图的宽度为W、高度为H,通道数为9。
对于基于三个多任务模块的多任务监督RM模块。首先将上述语义预测图ffinal经过第一多任务模块,其依次由卷积核为3,步长为1,卷积核个数为9的第一卷积层,归一化层,激活层组成,激活层的输出经过卷积核为1,步长为1,卷积核个数为2的第二卷积层后,最终得到前景-背景输出fbin;接着将fbin通过exp函数得到语义监督的权重weight,将ffinal与weight进行点乘得到
Figure BDA0003172576900000257
接着将
Figure BDA0003172576900000258
经过第二多任务模块,其依次由卷积核为3,步长为1,卷积核个数为9的卷积层,归一化层,激活层组成,得到输出
Figure BDA0003172576900000259
然后将
Figure BDA00031725769000002510
经过卷积核为1,步长为1,卷积核个数为9的卷积层,得到最终的语义输出fsem;之后将ffinal
Figure BDA00031725769000002511
进行拼接操作得到
Figure BDA00031725769000002512
最后将
Figure BDA00031725769000002513
经过第三多任务模块,其依次由卷积核为3,步长为1,卷积核个数为9的第一卷积层,归一化层,激活层组成,激活层的输出经过卷积核为1,步长为1,卷积核个数为2的第二卷积层后,得到最终的边界输出fbou。此时每幅特征图的宽度为W、高度为H,通道数为9。
步骤1_3:将训练集输入到卷积神经网络中进行训练,卷积神经网络输出训练集中的每幅初始道路场景RGB图像对应的七个预测图集合;
七个预测图集合中每幅预测图的大小均与初始道路场景RGB图像的大小相同,七个预测图集合包括语义分割预测图集合Jpre1、高级语义预测图集合Jpre2、中级语义预测图集合Jpre3、低级语义预测图集合Jpre4、前景-背景预测图集合Jpre5、边界预测图集合Jpre6和语义预测图集合Jpre7;
语义分割预测图集合Jpre1是由卷积神经网络的第一输出的9幅语义分割预测图ffinal组成,高级语义预测图集合Jpre2是由卷积神经网络的第二输出的9幅高级语义预测图fhigh组成,中级语义预测图集合Jpre3是由卷积神经网络的第三输出的9幅中级语义预测图fmid组成,低级语义预测图集合Jpre4是由卷积神经网络的第四输出的9幅低级语义预测图flow组成,前景-背景预测图集合Jpre5是由卷积神经网络的第五输出的9幅前景-背景预测图fbin组成,边界预测图集合Jpre6是由卷积神经网络的第六输出的9幅边界预测图fbou组成,语义预测图集合Jpre7是由卷积神经网络的第七输出的9幅语义预测图fsem组成,最终卷积神经网络的第七输出作为测试阶段过程中输出的语义分割预测图。
步骤1_4:将每幅初始道路场景RGB图像对应的真实语义分割图像处理成9幅独热编码图像并将9幅独热编码图像的集合记为Jtrue,分别计算9幅独热编码图像的集合Jtrue与对应的七个预测图集合之间的损失函数值,将七个损失函数值之和作为最终损失值;其中,9幅独热编码图像的集合Jtrue与对应的预测图集合Jprei之间的损失函数值记为Lossi(Jprei,Jtrue),i=1,2,3,4,5,6,7,Lossi(Jprei,Jtrue)采用交叉熵(CrossEntropyLoss)计算。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,直到卷积神经网络收敛达到饱和,即训练损失值波动很难下降,验证损失也几乎降至最小,此时获得卷积神经网络分类训练模型;将此时得到的网络的权值矢量和偏置作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项;在本例中,选取V=300。
测试阶段过程的具体步骤为:
步骤2:将多幅待语义分割的原始道路场景RGB图像和原始Thermal热红外图像输入卷积神经网络分类训练模型中,利用最优权值矢量和最优偏置项进行预测,获得对应的语义分割预测图。
具体实施中,取393幅待语义分割的原始RGB彩色图像和原始Thermal热红外图像作为测试集。令
Figure BDA0003172576900000261
表示待语义分割的原始RGB彩色图像和原始Thermal热红外图像的集合;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0003172576900000262
的宽度,H'表示
Figure BDA0003172576900000263
的高度,
Figure BDA0003172576900000264
表示
Figure BDA0003172576900000265
中坐标位置为(i,j)的像素点的像素值。
Figure BDA0003172576900000266
的R通道分量、G通道分量和B通道分量及其对应的原始Thermal热红外图像分别输入到卷积神经网络分类训练模型中,并利用最优权值矢量Wbest和最优偏置项bbest进行预测,得到
Figure BDA0003172576900000267
对应的语义分割预测图,记为
Figure BDA0003172576900000268
其中,
Figure BDA0003172576900000269
表示
Figure BDA00031725769000002610
中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于Python的深度学***均类别准确率(Mean ClassAcurracy,mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersection overUnion,IoU),分割图像与标签图像交集与并集的平均比值(Mean Intersection overUnion,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库MFNET RGB-T Dataset测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
Figure BDA0003172576900000271
图7a给出了同一场景的第1幅原始的道路场景图像;图7b给出了利用本发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图8a给出了同一场景的第2幅原始的道路场景图像;图8b给出了利用本发明方法对图8a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图9a给出了同一场景的第3幅原始的道路场景图像;图9b给出了利用本发明方法对图9a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图10a给出了同一场景的第4幅原始的道路场景图像;图10b给出了利用本发明方法对图10a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;对比图7a和图7b,对比图8a和图8b,对比图9a和图9b,对比图10a和图10b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (10)

1.一种基于多监督网络的道路场景图像语义分割方法,其特征在于,包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取多幅原始道路场景RGB图像和对应的原始Thermal热红外图像以及真实语义分割图像,将每幅原始道路场景RGB图像和原始Thermal热红外图像分别通过裁剪、明亮度、翻转方式进行数据增强之后获得初始道路场景RGB图像和初始Thermal热红外图像,由多幅初始道路场景RGB图像和初始Thermal热红外图像以及对应的真实语义分割图像构成训练集;
步骤1_2:构建卷积神经网络;
步骤1_3:将训练集输入到卷积神经网络中进行训练,卷积神经网络输出训练集中的每幅原始道路场景RGB图像对应的七个预测图集合;
步骤1_4:将每幅原始道路场景RGB图像对应的真实语义分割图像处理成9幅独热编码图像并将9幅独热编码图像的集合记为Jtrue,分别计算9幅独热编码图像的集合Jtrue与对应的七个预测图集合之间的损失函数值,将七个损失函数值之和作为最终损失值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,直到卷积神经网络收敛达到饱和,获得卷积神经网络分类训练模型;将此时得到的网络的权值矢量和偏置作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项;
所述的测试阶段过程的具体步骤为:
步骤2:将多幅待语义分割的原始道路场景RGB图像和原始Thermal热红外图像输入卷积神经网络分类训练模型中,利用最优权值矢量和最优偏置项进行预测,获得对应的语义分割预测图。
2.根据权利要求1所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于:所述卷积神经网络包括编码模块和解码模块两部分,编码模块与解码模块相连;
编码模块包括10个编码模块,解码模块包括语义AHLS模块、多任务监督RM模块、5个信息融合FM模块、5个特征融合AMMF模块和3个语义监督MLF模块;
第一编码模块依次经第二编码模块、第三编码模块、第四编码模块和第五编码模块后与语义AHLS模块相连,第六编码模块依次经第七编码模块、第八编码模块、第九编码模块和第十编码模块后与语义AHLS模块相连,第一编码模块的输入为初始道路场景RGB图像,第六编码模块的输入为初始Thermal热红外图像;
第五编码模块、语义AHLS模块和第十编码模块与第一特征融合AMMF模块相连,第一特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第一信息融合FM模块的第一输入和第二输入中,第一信息融合FM模块的输出和语义AHLS模块的输出同时输入到第一语义监督MLF模块,第一语义监督MLF模块的输出作为卷积神经网络的第二输出;
第四编码模块的输出、第一信息融合FM模块的输出和第九编码模块的输出输入到第二特征融合AMMF模块,第二特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第二信息融合FM模块的第一输入和第二输入中,第二信息融合FM模块的输出、第三编码模块的输出和第八编码模块的输出同时输入到第三特征融合AMMF模块,第三特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第三信息融合FM模块的第一输入和第二输入中,第二信息融合FM模块的输出和第三信息融合FM模块的输出同时输入到第二语义监督MLF模块,第二语义监督MLF模块的输出作为卷积神经网络的第三输出;
第二编码模块的输出、第三信息融合FM模块的输出和第七编码模块的输出输入到第四特征融合AMMF模块,第四特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第四信息融合FM模块的第一输入和第二输入中,第四信息融合FM模块的输出、第一编码模块的输出和第六编码模块的输出输入到第五特征融合AMMF模块,第五特征融合AMMF模块的输出与语义AHLS模块的输出分别输入到第五信息融合FM模块的第一输入和第二输入中,第四信息融合FM模块的输出和第五信息融合FM模块的输出同时输入到第三语义监督MLF模块,第三语义监督MLF模块的输出作为卷积神经网络的第四输出;第五信息融合FM模块的输出作为卷积神经网络的第一输出,第五信息融合FM模块的输出输入到多任务监督RM模块,多任务监督RM模块的第一输出、第二输出和第三输出分别作为卷积神经网络的第五输出、第六输出和第七输出。
3.根据权利要求1所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于:所述第一编码模块和第六编码模块结构相同,主要由第一卷积层、第一批归一化层和第一激活层依次连接组成;
所述第二编码模块和第七编码模块结构相同,主要由第一下采样层、第一残差单元和两个第二残差单元依次连接组成;
所述第三编码模块和第八编码模块结构相同,主要由第一残差单元和七个第二残差单元依次连接组成;
所述第四编码模块和第九编码模块结构相同,主要由第一残差单元和35个第二残差单元依次连接组成;
所述第五编码模块和第十编码模块结构相同,主要由第一残差单元和二个第二残差单元依次连接组成。
4.根据权利要求3所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于:所述第一残差单元包括第二卷积层、第二归一化层、第三卷积层、第三归一化层、第四卷积层、第四归一化层、第二激活层、第五卷积层、第五归一化层和第三激活层;
第二卷积层依次经第二归一化层、第三卷积层、第三归一化层、第四卷积层和第四归一化层后与第二激活层相连,第一残差单元的输入为第二卷积层的输入,第二卷积层的输入还输入到第五卷积层,第五卷积层与第五归一化层相连,第二激活层的输出和第五归一化层输出进行相加后的输出输入到第三激活层,第三激活层的输出作为第一残差单元的输出;
所述第二残差单元包括第六卷积层、第六归一化层、第七卷积层、第七归一化层、第八卷积层、第八归一化层、第四激活层和第五激活层;
第六卷积层依次经第六归一化层、第七卷积层、第七归一化层、第八卷积层和第八归一化层后与第四激活层相连,第二残差单元的输入为第六卷积层的输入,第四激活层的输出与第六卷积层的输入进行相加后的输出输入到第五激活层,第五激活层的输出作为第二残差单元的输出。
5.根据权利要求2所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于:所述5个信息融合FM模块结构相同,具体为:
包括第四上采样层、第二十二卷积层和第二十三卷积层;每个信息融合FM模块有两个输入和一个输出,信息融合FM模块的第二输入输入到第四上采样层,第四上采样层与第二十二卷积层相连,第二十二卷积层的输出与信息融合FM模块的第一输入进行级联后的输出输入到第二十三卷积层,第二十三卷积层的输出作为信息融合FM模块的输出。
6.根据权利要求2所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于:所述语义AHLS模块包括两个第一卷积模块、两个第一注意力机制模块、一个第二卷积模块和一个第二注意力机制模块;
语义AHLS模块有两个输入,语义AHLS模块的第一输入经一个第一卷积模块后与一个第一注意力机制模块相连,语义AHLS模块的第二输入经另一个第一卷积模块后与另一个第一注意力机制模块相连,两个第一注意力机制模块的输出进行级联后的输出输入到第二卷积模块,第二卷积模块与第二注意力机制模块相连,第二注意力机制模块的输出作为语义AHLS模块的输出;
所述第一卷积模块主要由第九卷积层组成;所述第一注意力机制模块主要由第一池化层、第一全连接层、第六激活层、第二全连接层、第七激活层、第三全连接层、第八激活层和第十卷积层依次连接组成;
所述第二卷积模块主要由第十一卷积层、第九归一化层和第九激活层依次连接组成;所述第二注意力机制模块与第一注意力机制模块结构相同。
7.根据权利要求2所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于,所述5个特征融合AMMF模块结构相同,具体为:
包括第一交融模块、第二交融模块、第十二卷积层、第一上采样层和第十三卷积层;
特征融合AMMF模块的第一输入与第一编码模块、第二编码模块、第三编码模块、第四编码模块或第五编码模块相连,特征融合AMMF模块的第二输入与第六编码模块、第七编码模块、第八编码模块、第九编码模块或第十编码模块相连,特征融合AMMF模块的第三输入与语义AHLS模块、第一融合特征输出、第二融合特征输出、第三融合特征输出或第四融合特征输出相连;
特征融合AMMF模块的第一输入和第二输入进行相乘后的输出作为第一融合输出,第一融合输出与特征融合AMMF模块的第一输入和第二输入进行相乘后的输出作为第二融合输出,第二融合输出与特征融合AMMF模块的第二输入进行级联后的输出输入到第一交融模块,第一交融模块的输出与特征融合AMMF模块的第三输入进行级联后的输出输入到第二交融模块,第一交融模块依次经第十二卷积层和第一上采样层后与第十三卷积层相连,第十三卷积层的输出作为特征融合AMMF模块的输出;
所述第一交融模块和第二交融模块结构相同,包括第十四卷积层、第十归一化层、第十激活层、第十五卷积层、第十一归一化层和第十激活层;
第十四卷积层依次经第十归一化层、第十激活层和第十五卷积层后与第十一归一化层相连,交融模块的输入为第十四卷积层的输入,第十四卷积层的输入与第十一归一化层的输出进行相加后的输出输入到第十激活层,第十激活层的输出作为交融模块的输出。
8.根据权利要求2所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于,所述3个语义监督MLF模块结构相同,具体为:
包括第二上采样层、第十六卷积层、第三上采样层和第十七卷积层;语义监督MLF模块的第一输入与语义AHLS模块、第二融合特征输出或第四融合特征输出相连,语义监督MLF模块的第二输入与第一融合特征输出、第三融合特征输出或第五融合特征输出相连;
语义监督MLF模块的第一输入经第二上采样层后与第十六卷积层相连,第十六卷积层的输出与语义监督MLF模块的第二输入进行级联后的输出经第三上采样层后与第十七卷积层相连,第十七卷积层的输出作为语义监督MLF模块的输出。
9.根据权利要求2所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于,所述多任务监督RM模块包括第十八卷积层、第十九卷积层、第二十卷积层、exp函数层、第一多任务模块、第二多任务模块和第三多任务模块;
多任务监督RM模块的输入为第十八卷积层的输入,第十八卷积层经第一多任务模块后的输出作为多任务监督RM模块的第一输出,多任务监督RM模块的第一输出经exp函数层的输出与第十八卷积层的输出进行相乘后的输出输入到第二多任务模块,第二多任务模块的输出经第十九卷积层后的输出作为多任务监督RM模块的第三输出,第二多任务模块的输出与第十八卷积层的输出进行级联后的输出经第三多任务模块后与第二十卷积层相连,第二十卷积层的输出作为多任务监督RM模块的第二输出;
所述第一多任务模块、第二多任务模块和第三多任务模块结构相同,均主要由第二十一卷积层、第十二归一化层和第十二激活层依次连接组成。
10.根据权利要求1所述的一种基于多监督网络的道路场景图像语义分割方法,其特征在于,所述七个预测图集合中每幅预测图的大小均与初始道路场景RGB图像的大小相同,七个预测图集合包括语义分割预测图集合Jpre1、高级语义预测图集合Jpre2、中级语义预测图集合Jpre3、低级语义预测图集合Jpre4、前景-背景预测图集合Jpre5、边界预测图集合Jpre6和语义预测图集合Jpre7
语义分割预测图集合Jpre1是由卷积神经网络的第一输出的9幅语义分割预测图ffinal组成,高级语义预测图集合Jpre2是由卷积神经网络的第二输出的9幅高级语义预测图fhigh组成,中级语义预测图集合Jpre3是由卷积神经网络的第三输出的9幅中级语义预测图fmid组成,低级语义预测图集合Jpre4是由卷积神经网络的第四输出的9幅低级语义预测图flow组成,前景-背景预测图集合Jpre5是由卷积神经网络的第五输出的9幅前景-背景预测图fbin组成,边界预测图集合Jpre6是由卷积神经网络的第六输出的9幅边界预测图fbou组成,语义预测图集合Jpre7是由卷积神经网络的第七输出的9幅语义预测图fsem组成,卷积神经网络的第七输出作为测试阶段过程中输出的语义分割预测图。
CN202110823118.4A 2021-07-21 2021-07-21 一种基于多监督网络的道路场景图像语义分割方法 Active CN113362349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110823118.4A CN113362349B (zh) 2021-07-21 2021-07-21 一种基于多监督网络的道路场景图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110823118.4A CN113362349B (zh) 2021-07-21 2021-07-21 一种基于多监督网络的道路场景图像语义分割方法

Publications (2)

Publication Number Publication Date
CN113362349A true CN113362349A (zh) 2021-09-07
CN113362349B CN113362349B (zh) 2024-05-10

Family

ID=77540049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110823118.4A Active CN113362349B (zh) 2021-07-21 2021-07-21 一种基于多监督网络的道路场景图像语义分割方法

Country Status (1)

Country Link
CN (1) CN113362349B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172555A (zh) * 2024-05-09 2024-06-11 江西理工大学南昌校区 一种道路场景图像分割方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190164290A1 (en) * 2016-08-25 2019-05-30 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112991351A (zh) * 2021-02-23 2021-06-18 新华三大数据技术有限公司 遥感图像语义分割方法、装置及存储介质
CN112991364A (zh) * 2021-03-23 2021-06-18 浙江科技学院 基于卷积神经网络跨模态融合的道路场景语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190164290A1 (en) * 2016-08-25 2019-05-30 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112991351A (zh) * 2021-02-23 2021-06-18 新华三大数据技术有限公司 遥感图像语义分割方法、装置及存储介质
CN112991364A (zh) * 2021-03-23 2021-06-18 浙江科技学院 基于卷积神经网络跨模态融合的道路场景语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王子羽;张颖敏;陈永彬;王桂棠;: "基于RGB-D图像的室内场景语义分割网络优化", 自动化与信息工程, no. 02, 15 April 2020 (2020-04-15) *
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06, 16 June 2020 (2020-06-16) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172555A (zh) * 2024-05-09 2024-06-11 江西理工大学南昌校区 一种道路场景图像分割方法及***

Also Published As

Publication number Publication date
CN113362349B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN108764063B (zh) 一种基于特征金字塔的遥感影像时敏目标识别***及方法
CN111563507B (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN108647585A (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN108509978A (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN110490205B (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN111612807A (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN114241274B (zh) 一种基于超分辨率多尺度特征融合的小目标检测方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN115631344B (zh) 一种基于特征自适应聚合的目标检测方法
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及***
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN109446933A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN115482518A (zh) 一种面向交通场景的可扩展多任务视觉感知方法
CN114529581A (zh) 基于深度学习及多任务联合训练的多目标跟踪方法
CN113781504A (zh) 一种基于边界引导的道路场景语义分割方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN113362349A (zh) 一种基于多监督网络的道路场景图像语义分割方法
CN117314938B (zh) 一种基于多尺度特征融合译码的图像分割方法及装置
CN116051532A (zh) 基于深度学习的工业零件缺陷检测方法、***及电子设备
CN111047571B (zh) 一种具有自适应选择训练过程的图像显著目标检测方法
CN113470033A (zh) 一种基于双侧边动态交叉融合的道路场景图像处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant