CN110929696A - 一种基于多模态注意与自适应融合的遥感图像语义分割方法 - Google Patents

一种基于多模态注意与自适应融合的遥感图像语义分割方法 Download PDF

Info

Publication number
CN110929696A
CN110929696A CN201911291168.1A CN201911291168A CN110929696A CN 110929696 A CN110929696 A CN 110929696A CN 201911291168 A CN201911291168 A CN 201911291168A CN 110929696 A CN110929696 A CN 110929696A
Authority
CN
China
Prior art keywords
semantic segmentation
remote sensing
function
double
adaptive fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911291168.1A
Other languages
English (en)
Inventor
周勇
杨劲松
赵佳琦
夏士雄
姚睿
刘兵
杜文亮
王秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201911291168.1A priority Critical patent/CN110929696A/zh
Publication of CN110929696A publication Critical patent/CN110929696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态注意与自适应融合的遥感图像语义分割方法,属于计算机视觉领域。具体包括:1)使用遥感图像多模态数据集,包括数据处理后的遥感图像及对应的深度图构建双流的语义分割网络;2)分别对输入图像提取不同尺度的特征,将获取的特征进行多层的自适应特征融合;3)使用多模态注意力机制对网络解码器部分的输入特征与编码器特征进行丰富语义信息的提取,关注相似的像素点。本发明利用多模态的遥感数据集,处理图像数据,结合双流网络结构,自适应融合提取的特征,并使用多模态注意力机制关注融合特征与编码特征,从而优化模型性能。

Description

一种基于多模态注意与自适应融合的遥感图像语义分割方法
技术领域
本发明涉及遥感图像处理技术,尤其涉及一种基于多模态注意与自适应融合的遥感图像语义分割方法。
背景技术
遥感是一种非接触、远距离的探测技术。一般来说,它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展,特别是近年来高分辨率遥感影像的出现,这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大,影像内容提供的信息也越来越丰富。
图像语义分割的目标是用相应的类标记图像中的每个像素。它是像素级的图像分类。因为我们要预测图像中的每个像素,所以这个任务通常被称为密集预测。值得注意的是,与之前的赋值不同,语义分割的预期输出不仅仅是标签和边界框参数。输出本身是一个高分辨率图像(通常与输入图像的大小相同),其中每个像素被分类为一个特定的类。
目前,语义分割是计算机视觉的关键问题之一。在宏观意义上,语义分割是一项高层次的工作,它为场景理解铺平了道路。作为计算机视觉的核心问题,场景理解变得越来越重要。应用场景需要从图像中推断出相关的知识或语义(即从具体到抽象的过程)。这些应用包括自动驾驶仪、人机交互、计算摄影、图像搜索引擎、增强现实等。应用各种传统的计算机视觉和机器学习技术,解决了这些问题。尽管这些方法普遍存在,但深度学习的革命已经在相关领域发生了巨大的变化。因此,许多计算机视觉问题,包括语义分割,开始使用深度结构来解决,通常是卷积神经网络cnn,这比传统方法更准确和高效。
此后,许多方法以此为基础,将卷积神经网络模型应用到遥感图像语义分割中来,但是与自然场景图像相比,遥感图像往往包含更丰富的多元信息,如何充分利用图像的其他信息,提升分割精度,仍是遥感图像语义分割中的难点,相关方法不断被提出。
随着传感器技术的飞速发展,人们对利用深度信息进行语义分割产生了浓厚的兴趣。深度数据变得广泛,因为它很容易被捕获。毫无疑问,深度信息可以改善分割,因为它捕获的几何信息不是通过颜色通道获得的。在中,深度数据作为除了rgb通道作为输入之外的第四个通道添加到网络中。这种直接的分割方法提高了分割性能。
尽管深度数据有助于从场景中分离对象,但它的语义信息比颜色少得多。此外,深度和颜色通道之间的相关性很小,这促使更好的方法使用深度来增强语义分割。
此外,现有的基于遥感图像的语义分割仍存在以下问题:
(1)遥感数据集中各类图像在角度、颜色、大小等方面存在显著差异,类间也存在实质性的相似性。例如,遥感图像类别之间的边缘区分是不可见的,比如树木和建筑物的阴影会产生遮挡问题。而遥感图像中存在着大量的建筑物、树木等小目标。从现有的深度学习模型中学习鲁棒特征表示提出了新的挑战,这是提高遥感图像语义分割精度的关键。
(2)随着传感器技术的发展,遥感图像的其他数据采集在语义分割中没有得到充分的利用,且遥感图像数据集的采集过程存在噪声影响。
(3)现有的语义分割方法在大范围遥感图像小目标特征提取方面存在一些不足。这使得有效提取遥感图像中小目标的特征信息成为可能。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多模态注意与自适应融合的遥感图像语义分割方法,该方法基于RGB图和深度图的双流语义分割网络,对遥感图像数据集进行数据预处理,提取不同尺度的RGB图特征与深度图特征,自适应地融合RGB图特征和深度图特征,使用多模态注意力关注相似的像素,以优化网络的分割性能。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于多模态注意与自适应融合的遥感图像语义分割方法,包括如下步骤:
(1)构建双流语义分割网络,包括如下步骤:
(11)构建双流语义分割网络的特征提取器;
(12)引入多层特征自适应融合;
(13)构建双流语义分割的解码器,并引入多模态注意力机制,形成双流语义分割网络;
(2)构建数据集并进行双流语义分割网络训练,包括如下步骤:
(21)构建数据集;
(22)对数据集进行数据预处理;
(23)进行双流语义分割网络训练;
(3)运行双流语义分割网络。
优选的,所述步骤(11),具体包括如下:
(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;
(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。
优选的,所述步骤(12),具体包括如下:
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1
(122)定义自适应融合矩阵An1和An2,其中n=1,2,3,4,5,An1+An2=1,初始化An1=An2=0.5;
(123)进行第一次特征自适应融合R1=A11×D1+A12×F1
(124)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(125)进行第二次特征自适应融合R2=A21×D2+A22×F2
(126)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(127)进行第三次特征自适应融合R3=A31×D3+A32×F3
(128)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(129)进行第四次特征自适应融合R4=A41×D4+A42×F4
(1210)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(1211)进行第五次特征自适应融合R5=A51×D5+A52×F5
优选的,所述步骤(13),具体包括如下:
(131)将步骤(1210)得到的融合特征F5进行反卷积得到U5
(132)计算多模态注意力机制:
A4=f(U5,R4,D4)=ω4(relu(ω1U52R43D4))×R4
其中:ω1、ω2、ω3和ω4为权重矩阵,relu(·)为激活函数;
(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C4=A4+U5
(134)使用upconv(·)函数计算C4,得到维度减半的张量Y4
(135)将步骤(134)中得到的Y4进行反卷积得到U4
(136)计算多模态注意力机制:
A3=f(U4,R3,D3)=ω4(relu(ω1U42R33D3))×R3
(137)使用张量拼接函数concatenate(·)叠加A3和U4,得到C3=A3+U4
(138)使用upconv(·)函数计算C3,得到维度减半的张量Y3
(139)将步骤(126)中得到的Y3进行反卷积得到U3
(1310)计算多模态注意力机制:
A2=f(U3,R2,D2)=ω4(relu(ω1U3+ω2R2+ω3D2))×R2
(1311)使用张量拼接函数concatenate(·)叠加A2和U3,得到C2=A2+U3
(1312)使用upconv(·)函数计算C2,得到维度减半的张量Y2
(1313)将步骤(1312)中得到的Y2进行反卷积得到U2
(1314)计算多模态注意力机制:
A1=f(U2,R1,D1)=ω4(relu(ω1U22R13D1))×R1
(1315)使用张量拼接函数concatenate(·)叠加A1和U2,得到C1=A1+U2
(1316)使用upconv(·)函数计算C1,得到维度减半的张量Y1
优选的,所述步骤(21),具体包括如下:
(211)将原始数据集中的深度图、RGB图和标签图均裁剪成512*512的图像,形成裁剪后的数据集。
优选的,所述步骤(22),具体包括如下:
(221)对裁剪后的数据集进行依概率P=0.5的水平翻转;
(222)对经步骤(221)处理后得到的数据集,使用高斯滤波器对数据集中的RGB图进行依概率P=0.5的高斯平滑处理;
(223)对经步骤(222)处理后得到的数据集,对数据集中的RGB图进行归一化处理,最终形成训练样本集。
优选的,所述步骤(23),具体包括如下:
(231)训练样本集包括相对应的深度图、RGB图和标签图;
(232)将对应的深度图和RGB图输入双流语义分割网络,输出特征张量Y1
(233)使用损失函数来计算特征张量Y1与对应的标签图的误差;
(234)使用亚当优化算法减小步骤(233)得到的误差,计算当前双流语义分割网络的MIoU指标;
(235)更新双流语义分割网络的卷积权重参数,返回步骤(232),直至达到设定循环次数;
(236)取MIoU指标最高时对应的双流语义分割网络的为最优双流语义分割网络。
优选的,所述步骤(134)中,upconv(·)函数包含依次运行的张量拼接函数concatenate(·)、归一化函数batch norm(·)和激活函数relu(·)。
优选的,所述步骤(233)中,损失函数为优化的子模损失函数(即LovaszSoftmax函数,基于Lovasz扩展的子模集合函数),具体为:
Figure BDA0002319176480000061
Figure BDA0002319176480000062
其中:fi(c)表示像素点i属于类别c的概率,yi *为标签图上像素点i的真实值,|C|为类别总数;Jc为杰卡德相似系数(Jaccard相似系数),ΔJc表示杰卡德损失(Jaccardloss),
Figure BDA0002319176480000063
表示使用mi(c)构造ΔJc的代替函数。
优选的,所述步骤(234)中,MIoU指标为平均交并比,即计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值集合和预测值集合:
Figure BDA0002319176480000064
其中:k≥2表示类别总数;
pij表示真实值属于类别i预测值属于类别j的像素点的数量;
pii表示真实值属于类别i预测值属于类别i的像素点的数量;
pji表示真实值属于类别j预测值属于类别i的像素点的数量;
pjj表示真实值属于类别j预测值属于类别j的像素点的数量。
有益效果:本发明提供的基于多模态注意与自适应融合的遥感图像语义分割方法,可以有效利用采集到的遥感图像其他模态数据,对图像数据进行数据预处理,将单模态的RGB图像语义分割与深度图相结合,利用深度图的特征来约束优化RGB图像的图像,可以解决遥感图像类与类的边缘区分不明显问题;引入的多模态注意力机制可以有效注意遥感图像中小目标的相似像素点从而优化分割性能。
附图说明
图1为本发明的网络结构图;
图2为本发明的步骤图。
具体实施方式
下面结合附图对本发明的技术方案作更进一步的说明。
参照图1,本发明的具体步骤如下:
步骤一、搭建双流语义分割网络
(11)构建双流语义分割网络的特征提取器
(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;
(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。
(12)引入多层自适应特征融合
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1
(122)定义自适应融合矩阵An1和An2,其中n=1,2,3,4,5,An1+An2=1,初始化An1=An2=0.5;
(123)进行第一次特征自适应融合R1=A11×D1+A12×F1
(124)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(125)进行第二次特征自适应融合R2=A21×D2+A22×F2
(126)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(127)进行第三次特征自适应融合R3=A31×D3+A32×F3
(128)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(129)进行第四次特征自适应融合R4=A41×D4+A42×F4
(1210)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(1211)进行第五次特征自适应融合R5=A51×D5+A52×F5
(13)构建双流语义分割的解码器,并引入多模态注意力机制,形成双流语义分割网络
(131)将步骤(1210)得到的融合特征F5进行反卷积得到U5
(132)计算多模态注意力机制:
A4=f(U5,R4,D4)=ω4(relu(ω1U52R43D4))×R4
其中:ω1、ω2、ω3和ω4为权重矩阵,relu(·)为激活函数;
(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C4=A4+U5
(134)使用upconv(·)函数计算C4,得到维度减半的张量Y4
(135)将步骤(134)中得到的Y4进行反卷积得到U4
(136)计算多模态注意力机制:
A3=f(U4,R3,D3)=ω4(relu(ω1U42R33D3))×R3
(137)使用张量拼接函数concatenate(·)叠加A3和U4,得到C3=A3+U4
(138)使用upconv(·)函数计算C3,得到维度减半的张量Y3
(139)将步骤(126)中得到的Y3进行反卷积得到U3
(1310)计算多模态注意力机制:
A2=f(U3,R2,D2)=ω4(relu(ω1U32R23D2))×R2
(1311)使用张量拼接函数concatenate(·)叠加A2和U3,得到C2=A2+U3
(1312)使用upconv(·)函数计算C2,得到维度减半的张量Y2
(1313)将步骤(1312)中得到的Y2进行反卷积得到U2
(1314)计算多模态注意力机制:
A1=f(U2,R1,D1)=ω4(relu(ω1U22R13D1))×R1
(1315)使用张量拼接函数concatenate(·)叠加A1和U2,得到C1=A1+U2
(1316)使用upconv(·)函数计算C1,得到维度减半的张量Y1
步骤二、构建数据集并进行双流语义分割网络训练
(21)构建数据集;
(211)将原始数据集中的深度图、RGB图和标签图均裁剪成512*512的图像,形成裁剪后的数据集。
(22)对数据集进行数据预处理;
(221)对裁剪后的数据集进行依概率P=0.5的水平翻转;
(222)对经步骤(221)处理后得到的数据集,使用高斯滤波器对数据集中的RGB图进行依概率P=0.5的高斯平滑处理;
(223)对经步骤(222)处理后得到的数据集,对数据集中的RGB图进行归一化处理,最终形成训练样本集。
(23)进行双流语义分割网络训练;
(231)训练样本集包括相对应的深度图、RGB图和标签图;
(232)将对应的深度图和RGB图输入双流语义分割网络,输出特征张量Y1
(233)使用损失函数来计算特征张量Y1与对应的标签图的误差;
(234)使用亚当优化算法减小步骤(233)得到的误差,计算当前双流语义分割网络的MIoU指标;
(235)更新双流语义分割网络的卷积权重参数,返回步骤(232),直至达到设定循环次数;
(236)取MIoU指标最高时对应的双流语义分割网络的为最优双流语义分割网络。
所述步骤(233)中,损失函数为优化的子模损失函数(即LovaszSoftmax函数,基于Lovasz扩展的子模集合函数),具体为:
Figure BDA0002319176480000101
Figure BDA0002319176480000102
其中:fi(c)表示像素点i属于类别c的概率,yi *为标签图上像素点i的真实值,|C|为类别总数;Jc为杰卡德相似系数(Jaccard相似系数),ΔJc表示杰卡德损失(Jaccardloss),
Figure BDA0002319176480000103
表示使用mi(c)构造ΔJc的代替函数。
所述步骤(234)中,MIoU指标为平均交并比,即计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值集合和预测值集合:
Figure BDA0002319176480000104
其中:k≥2表示类别总数;
pij表示真实值属于类别i预测值属于类别j的像素点的数量;
pii表示真实值属于类别i预测值属于类别i的像素点的数量;
pji表示真实值属于类别j预测值属于类别i的像素点的数量;
pjj表示真实值属于类别j预测值属于类别j的像素点的数量。
步骤三、运行双流语义分割网络。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:包括如下步骤:
(1)构建双流语义分割网络,包括如下步骤:
(11)构建双流语义分割网络的特征提取器;
(12)引入多层特征自适应融合;
(13)构建双流语义分割的解码器,并引入多模态注意力机制,形成双流语义分割网络;
(2)构建数据集并进行双流语义分割网络训练,包括如下步骤:
(21)构建数据集;
(22)对数据集进行数据预处理;
(23)进行双流语义分割网络训练;
(3)运行双流语义分割网络。
2.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(11),具体包括如下:
(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;
(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。
3.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(12),具体包括如下:
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1
(122)定义自适应融合矩阵An1和An2,其中n=1,2,3,4,5,An1+An2=1,初始化An1=An2=0.5;
(123)进行第一次特征自适应融合R1=A11×D1+A12×F1
(124)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(125)进行第二次特征自适应融合R2=A21×D2+A22×F2
(126)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(127)进行第三次特征自适应融合R3=A31×D3+A32×F3
(128)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(129)进行第四次特征自适应融合R4=A41×D4+A42×F4
(1210)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2
(1211)进行第五次特征自适应融合R5=A51×D5+A52×F5
4.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(13),具体包括如下:
(131)将步骤(1210)得到的融合特征F5进行反卷积得到U5
(132)计算多模态注意力机制:
A4=f(U5,R4,D4)=ω4(relu(ω1U52R43D4))×R4
其中:ω1、ω2、ω3和ω4为权重矩阵,relu(·)为激活函数;
(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C4=A4+U5
(134)使用upconv(·)函数计算C4,得到维度减半的张量Y4
(135)将步骤(134)中得到的Y4进行反卷积得到U4
(136)计算多模态注意力机制:
A3=f(U4,R3,D3)=ω4(relu(ω1U42R33D3))×R3
(137)使用张量拼接函数concatenate(·)叠加A3和U4,得到C3=A3+U4
(138)使用upconv(·)函数计算C3,得到维度减半的张量Y3
(139)将步骤(126)中得到的Y3进行反卷积得到U3
(1310)计算多模态注意力机制:
A2=f(U3,R2,D2)=ω4(relu(ω1U32R23D2))×R2
(1311)使用张量拼接函数concatenate(·)叠加A2和U3,得到C2=A2+U3
(1312)使用upconv(·)函数计算C2,得到维度减半的张量Y2
(1313)将步骤(1312)中得到的Y2进行反卷积得到U2
(1314)计算多模态注意力机制:
A1=f(U2,R1,D1)=ω4(relu(ω1U22R13D1))×R1
(1315)使用张量拼接函数concatenate(·)叠加A1和U2,得到C1=A1+U2
(1316)使用upconv(·)函数计算C1,得到维度减半的张量Y1
5.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(21),具体包括如下:
(211)将原始数据集中的深度图、RGB图和标签图均裁剪成512*512的图像,形成裁剪后的数据集。
6.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(22),具体包括如下:
(221)对裁剪后的数据集进行依概率P=0.5的水平翻转;
(222)对经步骤(221)处理后得到的数据集,使用高斯滤波器对数据集中的RGB图进行依概率P=0.5的高斯平滑处理;
(223)对经步骤(222)处理后得到的数据集,对数据集中的RGB图进行归一化处理,最终形成训练样本集。
7.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(23),具体包括如下:
(231)训练样本集包括相对应的深度图、RGB图和标签图;
(232)将对应的深度图和RGB图输入双流语义分割网络,输出特征张量Y1
(233)使用损失函数来计算特征张量Y1与对应的标签图的误差;
(234)使用亚当优化算法减小步骤(233)得到的误差,计算当前双流语义分割网络的MIoU指标;
(235)更新双流语义分割网络的卷积权重参数,返回步骤(232),直至达到设定循环次数;
(236)取MIoU指标最高时对应的双流语义分割网络的为最优双流语义分割网络。
8.根据权利要求4所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(134)中,upconv(·)函数包含依次运行的张量拼接函数concatenate(·)、归一化函数batch norm(·)和激活函数relu(·)。
9.根据权利要求7所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(233)中,损失函数为优化的子模损失函数,具体为:
Figure FDA0002319176470000041
Figure FDA0002319176470000042
其中:fi(c)表示像素点i属于类别c的概率,yi *为标签图上像素点i的真实值,|C|为类别总数;Jc为杰卡德相似系数,ΔJc表示杰卡德损失,
Figure FDA0002319176470000043
表示使用mi(c)构造ΔJc的代替函数。
10.根据权利要求7所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(234)中,MIoU指标为平均交并比,即计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值集合和预测值集合:
Figure FDA0002319176470000051
其中:k≥2表示类别总数;
pij表示真实值属于类别i预测值属于类别j的像素点的数量;
pii表示真实值属于类别i预测值属于类别i的像素点的数量;
pji表示真实值属于类别j预测值属于类别i的像素点的数量;
pjj表示真实值属于类别j预测值属于类别j的像素点的数量。
CN201911291168.1A 2019-12-16 2019-12-16 一种基于多模态注意与自适应融合的遥感图像语义分割方法 Pending CN110929696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911291168.1A CN110929696A (zh) 2019-12-16 2019-12-16 一种基于多模态注意与自适应融合的遥感图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911291168.1A CN110929696A (zh) 2019-12-16 2019-12-16 一种基于多模态注意与自适应融合的遥感图像语义分割方法

Publications (1)

Publication Number Publication Date
CN110929696A true CN110929696A (zh) 2020-03-27

Family

ID=69862668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911291168.1A Pending CN110929696A (zh) 2019-12-16 2019-12-16 一种基于多模态注意与自适应融合的遥感图像语义分割方法

Country Status (1)

Country Link
CN (1) CN110929696A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797703A (zh) * 2020-06-11 2020-10-20 武汉大学 基于鲁棒深度语义分割网络的多源遥感影像分类方法
CN111860425A (zh) * 2020-07-30 2020-10-30 清华大学 一种深度多模态跨层交叉融合方法、终端设备及存储介质
CN111860517A (zh) * 2020-06-28 2020-10-30 广东石油化工学院 一种基于分散注意力网络的小样本下语义分割方法
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及***
CN112132006A (zh) * 2020-09-21 2020-12-25 西南交通大学 一种面向耕地保护的林地和建筑物智能提取方法
CN112184738A (zh) * 2020-10-30 2021-01-05 北京有竹居网络技术有限公司 一种图像分割方法、装置、设备及存储介质
CN112330719A (zh) * 2020-12-02 2021-02-05 东北大学 基于特征图分割和自适应融合的深度学习目标跟踪方法
CN112560624A (zh) * 2020-12-08 2021-03-26 中南大学 基于模型深度集成的高分遥感影像语义分割方法
CN114372986A (zh) * 2021-12-30 2022-04-19 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
CN114581859A (zh) * 2022-05-07 2022-06-03 北京科技大学 一种转炉下渣监测方法及***
CN116030057A (zh) * 2023-03-29 2023-04-28 中国电子科技集团公司第五十四研究所 一种基于注意力机制的遥感影像能见度估计方法
CN117058468A (zh) * 2023-10-11 2023-11-14 青岛金诺德科技有限公司 用于新能源汽车锂电池回收的图像识别与分类***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033998A (zh) * 2018-07-04 2018-12-18 北京航空航天大学 基于注意力机制卷积神经网络的遥感影像地物标注方法
CN109543697A (zh) * 2018-11-16 2019-03-29 西北工业大学 一种基于深度学习的rgbd图像目标识别方法
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033998A (zh) * 2018-07-04 2018-12-18 北京航空航天大学 基于注意力机制卷积神经网络的遥感影像地物标注方法
CN109543697A (zh) * 2018-11-16 2019-03-29 西北工业大学 一种基于深度学习的rgbd图像目标识别方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和***
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAXIM BERMAN等: "The Lovasz-Softmax loss: A tractable surrogate for the optimization of theintersection-over-union measure in neural networks lovasz-softmax loss", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
朱光亚: "基于深度学习的遥感影像建筑物提取方法研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797703A (zh) * 2020-06-11 2020-10-20 武汉大学 基于鲁棒深度语义分割网络的多源遥感影像分类方法
CN111860517A (zh) * 2020-06-28 2020-10-30 广东石油化工学院 一种基于分散注意力网络的小样本下语义分割方法
CN111860517B (zh) * 2020-06-28 2023-07-25 广东石油化工学院 一种基于分散注意力网络的小样本下语义分割方法
CN111860425B (zh) * 2020-07-30 2021-04-09 清华大学 一种深度多模态跨层交叉融合方法、终端设备及存储介质
CN111860425A (zh) * 2020-07-30 2020-10-30 清华大学 一种深度多模态跨层交叉融合方法、终端设备及存储介质
US11120276B1 (en) 2020-07-30 2021-09-14 Tsinghua University Deep multimodal cross-layer intersecting fusion method, terminal device, and storage medium
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及***
CN112132006A (zh) * 2020-09-21 2020-12-25 西南交通大学 一种面向耕地保护的林地和建筑物智能提取方法
CN112184738A (zh) * 2020-10-30 2021-01-05 北京有竹居网络技术有限公司 一种图像分割方法、装置、设备及存储介质
CN112330719A (zh) * 2020-12-02 2021-02-05 东北大学 基于特征图分割和自适应融合的深度学习目标跟踪方法
CN112330719B (zh) * 2020-12-02 2024-02-27 东北大学 基于特征图分割和自适应融合的深度学习目标跟踪方法
CN112560624A (zh) * 2020-12-08 2021-03-26 中南大学 基于模型深度集成的高分遥感影像语义分割方法
CN112560624B (zh) * 2020-12-08 2024-05-17 中南大学 基于模型深度集成的高分遥感影像语义分割方法
CN114372986A (zh) * 2021-12-30 2022-04-19 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
CN114372986B (zh) * 2021-12-30 2024-05-24 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
CN114581859A (zh) * 2022-05-07 2022-06-03 北京科技大学 一种转炉下渣监测方法及***
CN114581859B (zh) * 2022-05-07 2022-09-13 北京科技大学 一种转炉下渣监测方法及***
CN116030057A (zh) * 2023-03-29 2023-04-28 中国电子科技集团公司第五十四研究所 一种基于注意力机制的遥感影像能见度估计方法
CN116030057B (zh) * 2023-03-29 2023-06-09 中国电子科技集团公司第五十四研究所 一种基于注意力机制的遥感影像能见度估计方法
CN117058468A (zh) * 2023-10-11 2023-11-14 青岛金诺德科技有限公司 用于新能源汽车锂电池回收的图像识别与分类***
CN117058468B (zh) * 2023-10-11 2023-12-19 青岛金诺德科技有限公司 用于新能源汽车锂电池回收的图像识别与分类***

Similar Documents

Publication Publication Date Title
CN110929696A (zh) 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN110796105A (zh) 一种基于多模态数据融合的遥感图像语义分割方法
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN111028217A (zh) 一种基于全卷积神经网络的图像裂缝分割方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN111080645A (zh) 基于生成式对抗网络的遥感图像半监督语义分割方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与***
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
Dong et al. Learning regional purity for instance segmentation on 3d point clouds
CN112819837A (zh) 一种基于多源异构遥感影像的语义分割方法
CN114581789A (zh) 一种高光谱图像分类方法及***
CN114359626A (zh) 基于条件生成对抗网络的可见光-热红外显著目标检测方法
CN117576591A (zh) 基于海面救援的无人机图像小目标检测算法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN117152630A (zh) 一种基于深度学习的光学遥感图像变化检测方法
CN109543716B (zh) 一种基于深度学习的k线形态图像识别方法
CN116485892A (zh) 一种弱纹理物体的六自由度位姿估计方法
CN115393735A (zh) 基于改进U-Net的遥感影像建筑物提取方法
CN112132816B (zh) 一种基于多任务与感兴趣区域分割引导的目标检测方法
CN111882545A (zh) 基于双向信息传递及特征融合的织物疵点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication