CN114943876A - 一种多级语义融合的云和云影检测方法、设备及存储介质 - Google Patents
一种多级语义融合的云和云影检测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114943876A CN114943876A CN202210699396.8A CN202210699396A CN114943876A CN 114943876 A CN114943876 A CN 114943876A CN 202210699396 A CN202210699396 A CN 202210699396A CN 114943876 A CN114943876 A CN 114943876A
- Authority
- CN
- China
- Prior art keywords
- information
- convolution
- cloud
- channel
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
- G06T2207/30192—Weather; Meteorology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多级语义融合的云和云影检测方法、设备及存储介质,涉及图像处理技术领域,使用残差网络作为骨干网络对输入图片数据进行特征提取,整体采用编码器‑解码器的结构,在模型中我们提出了多支路残差上下文语义模块,多尺度卷积子通道注意力模块和特征融合上采样模块三个模块用于强化特征提取,细化云和云影边缘信息,增强模型的实际分割能力,相较于当前的方法检测云和云影更加准确,有效减少背景信息的干扰,增强对云层边缘以及薄云的检测能力,解决了大多数网络对于云影的检测精度不够高的技术问题,提高了对云和云影的检测精度,增强了算法的鲁棒性能。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种多级语义融合的云和云影检测方法、设备及存储介质。
背景技术
目前由于航天技术的迅速发展,具有高分辨率的遥感图像的获取方式变得越来越简单,但是获取到的遥感图像由于天气的原因通常会受到云层遮挡的影响,这对提取地物信息产生阻碍,使得提取到的有效信息大大减少,甚至产生错误的判断。同时,云在气象学中也担任了重要的角色,是表征气候变化的重要指标,所以将遥感图像中云层以及云影进行精确分割对遥感图像的后期使用具有重要的作用。
现有技术中对云的检测方法主要是通过人工根据云和云影不同波段的阈值或者利用云的不同波段之间的归一化差异来进行识别,但是传统算法普遍存在操作复杂,需要花费大量人力去进行特征提取,检测精度低等问题。
近年来,随着人工智能的兴起,也出现了许多利用机器学习,深度学习的检测方法,许多学者将深度学习应用到云的检测当中,虽然深度学习在图像处理领域具有很好的效果,但是对于特定的场景应用许多网络的效果表现得并不是那么理想,在云和云影的检测任务中,大多数网络都存在分割结果不准确,边缘信息恢复的不理想,许多薄云不能准确地检测到以及在检测云影时受到复杂背景的干扰的问题,为此,现在提出一种多级语义融合的云和云影检测方法。
发明内容
针对现有技术的不足,本发明的目的在于提供一种多级语义融合的云和云影检测方法、设备及存储介质,解决了现有技术中对于云影的检测精度不够高的技术问题。
本发明的目的可以通过以下技术方案实现:一种多级语义融合的云和云影检测方法,方法包括以下步骤:
从谷歌地球上直接获取到的原始图片,大小为4800×2742像素,之后将原始图片进行统一裁剪,之后通过人工手动进行图片标签的标注,将图片中的云层标注为红色,云影标注为绿色,背景标注为黑色,使得标签与原图一一对应,再将所有图片以8:2的比例划分为训练集和验证集;
构建多级特征上下文语义融合网络以及三个所属模块,其中包括多支路残差上下文语义模块,多尺度卷积子通道注意力模块和特征融合上采样模块;
将数据集中的图片进行数据增强操作,以0.2的概率对数据集中的图片进行随机旋转,水平翻转或者垂直翻转操作,再将图片和标签转换为张量作为输入序列,并将输入的批量大小设置为8,将初始学习率设置为0.001,衰减系数为0.98,每训练3次更新一次学习率,一共训练了200次,其中学习率计算公式如下:
lrN=lr0×βN/s
其中lrN为第N次训练的学习率大小,lr0为初始学习率,β为衰减系数,s为更新间隔,损失函数选择交叉熵损失函数,计算公式如下:
其中x是网络的输出张量,class是真实标签,训练过程中使用Adam算法来作为优化器,从而得到训练后的多级特征上下文语义融合网络;
输入一张彩色图片,将彩色图片经过训练后的多级特征上下文语义融合网络进行编码解码操作后输出得到云和云影的掩膜图像。
进一步地,所述多支路残差上下文语义模块采用残差结构的形式,通过对输入张量进行一个捷径连接的方式实现恒等映射,既没有引入额外的参数也没有引入计算复杂性,且保留输入的部分原始参数;
主体部分采用双支路的连接方式,左边支路是一个上下文语义支路,用于提取上下文的语义信息,并且融入了自注意力机制来关注特征图中有意义的信息;右边支路是一个强化特征提取支路,在使用3x3卷积块的同时引入了两个条状卷积,用于强化特征的提取,实现效果的提升;
首先将输入张量经过一个1x1的卷积进行通道压缩,将通道压缩为原来的1/2,接着经过双支路输出后将输出张量进行融合,并与输入端构成残差连接后再经过一个双通道注意力模块,建模各个通道特征之间的重要性;
多支路残差上下文语义模块中引入了上下文语义支路,将卷积与注意力结合起来,使用卷积提取特征图中的局部信息,首先对于输入特征,使用一个3×3的卷积对输入进行特征映射来获得具有局部上下文信息联系的key,标记为K,使用一个1×1的卷积对输入进行特征映射来获得value,标记为V,而query仍然采用原来的值,将query标记为Q,之后将key与query进行concat并且进行了两次连续的卷积操作后得到每个像素点的权重Attention map,标记为A:
A=Conv(Conv(concat[K,Q]))
其中Conv(.)表示卷积操作,concat(.)表示将多个张量进行通道维度上的连接,与传统的注意力机制不同的是,这里的A是由Q和局部上下文语义信息K交互得到的,利用局部上下文语义信息之间的交互联系增强了注意力机制,之后再将这个A与V进行相乘得到动态上下文信息X:
X=A*V
最后将具有局部上下文信息的K与具有全局上下文信息的X相加便得到左边支路的输出结果;
右边支路引入了1×3和3×1这一组条状卷积块,通过分别使用3×3,1×3和3×1这三种卷积核来替代单一的3×3卷积核进行计算,之后再将三个输出相加得到最终输出;
进一步地,所述多尺度卷积子通道注意力模块用于提取深层通道互相之间的联系,通过分组卷积提取不同尺度的信息后经过改进的金字塔池化模块进一步提取深层语义信息,其中使用了条状池化来精确提取云和云影的边界信息,改善分割边界粗糙的问题,使用多尺度卷积来提取不同尺度的信息以此来提升模型的表达能力,在主支路中首先使用1×1,3×3,5×5,7×7不同尺寸的卷积核提取深层特征中不同尺度的信息,这样更好的提取特征图中的信息,接着使用改进的金子塔池化层对特征图中云和云影的边缘信息进行细化提取,最后进行拼接输出,主干支路计算过程如下:
Ci=Conv(ki×ki)(x)i=0,1,2,3
Ai1=Avg(ki×1)(Ci)i=0,1,2,3
Ai2=Avg(1×ki)(Ci)i=0,1,2,3
Ai=Ai1+Ai2
Y=DWConv(concat[A0,A1,A2,A3])
其中Conv(.)表示不同尺度的卷积,ki表示卷积核大小,Avg(.)表示不同尺寸的条状池化,DWConv(.)表示深度可分离卷积,concat(.)表示拼接操作;
对输入特征图进行通道上的Split,划分为不同的子通道,之后基于每个子通道上使用不同的卷积核进行卷积得到通道上的不同特征图,接着分别经过通道注意力提取不同尺度下的关注度,得到通道注意力向量,最后使用Softmax进一步对通道信息进行校准;
其中通道注意力模块允许对每个通道的重要性进行评估,从而关注重要的信息,同样的与大多数通道注意力一样首先使用一个自适应全局平均池化层对特征图进行通道信息的提取,接着经过两层一维卷积层对全局信息进行压缩和重新校准,最后通过非线性激活函数Sigmoid计算权重,整个辅助支路的计算过程如下:
Fi=Conv(ki×ki)(x)i=0,1,2,3
gi=GAP(Fi)
Si=Sigmoid(W1σ(W0(gi)))
Qi=Softmax(Si)
W=concat(Q1,Q2,Q3,Q4)
通过主支路的强化特征提取与辅助支路的通道权重计算得到特征图中的重要信息,将两者进行乘积,最后使用深度可分离卷积进行通道调整,计算公式如下:
output=DWConv(W*Y)。
进一步地,所述特征融合上采样模块将高层特征的语义信息与低层特征的细节信息相互融合,使用高层特征丰富的类别信息来指导低层特征进行分类,采用双支路的模式对低级特征图中的信息进行提取,在左边支路中采用了“瓶颈结构”的模式,引入空洞卷积增大其感受野面积,右边支路同样引入空洞卷积,之后经过一个最大池化层减小邻域大小受限造成的估计值方差增大的误差,保留更多的图像背景信息,对于高级特征来说,首先采用双线性插值上采样的方法将高级特征图上采样到与低级特征图同样的大小,然后经过卷积层对其中的类别信息进行细化提取,将高层特征进行加权后与低层特征进行融合,最后将两边结果进行相加后经过1×1卷积对通道进行调整并输出。
进一步地,所述多级特征上下文语义融合网络主要采取了多级特征融合的方法,将深层特征与浅层特征进行融合并加入注意力机制,总体是一个编码器-解码器的结构,首先使用残差网络ResNet-18作为主干网络并采用逐层下采样方式进行特征提取,接着将输出特征分别经过多支路残差上下文语义模块与多尺度卷积子通道注意力模块进行上下文语义的提取以及特征强化,加入大量的特征传输通道以及融合操作用于融合不同特征层的信息,编码器部分通过逐层上采样的同时将深层信息与浅层信息进行聚合使得网络中的上下文信息传播到更高分辨率的层中,最后在输出端采用一个残差模块进行通道阶梯细化。
进一步地,所述裁剪的方式为滑动无盖切割,所裁剪获取的图像为3通道,宽高为224的大小。
进一步地,所述裁剪后的图片的大小为224×224。
进一步地,经过双支路特征提取后进入一个双通道注意力模块,由于常见的通道注意力大都是直接采用全局平均池化从而会导致边缘信息的丢失,使用两种类型的全局池化操作,分别是全局平均池化和全局最大池化,使得提取到的特征信息更加丰富,接着使用1x1卷积操作提取通道之间的相互信息,主要关注不同的特征信息在不同通道之间的重要性,计算公式如下:
gmax=Conv1d(GMP(x))
gavg=Conv1d(GAP(x))
其中GMP(.),GAP(.)分别为全局最大池化和全局平均池化操作,Conv1d(.)为一维卷积操作,接着将两条分支的结果进行拼接后经过卷积操作,自适应的关注全局平均池化和最大池化的特征信息,加强对有用信息的关注,如云层和云影的边缘轮廓和像素颜色值,弱化了对无用信息的关注,如背景农田和房屋建筑,最后经过非线性激活函数Sigmoid(.)与输入原始特征层进行乘积运算,计算过程如下:
g=concat(gmax,gavg)
W=Sigmoid(Conv1d(g))
yout=x*W
其中concat(.)表示拼接操作,Sigmoid(.)表示非线性激活函数,Conv1d(.)表示一维卷积操作。
一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的一种多级语义融合的云和云影检测方法。
一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的一种多级语义融合的云和云影检测方法。
本发明的有益效果:
本发明在使用的过程中,使用残差网络作为骨干网络对输入图片数据进行特征提取,整体采用编码器-解码器的结构,在模型中我们提出了多支路残差上下文语义模块,多尺度卷积子通道注意力模块和特征融合上采样模块三个模块用于强化特征提取,细化云和云影边缘信息,增强模型的实际分割能力,相较于当前的方法检测云和云影更加准确,可以有效减少背景信息的干扰,增强对云层边缘以及薄云的检测能力,同样的,本文所提出的模型在分割其他物体方面也具有不错的效果,泛化能力优秀。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的云检测网络结构示意图;
图2为本发明的多支路残差上下文语义模块示意图;
图3为本发明的多尺度卷积子通道注意力模块示意图;
图4为本发明的特征融合上采样模块示意图;
图5为本发明实施例的训练集样本图,其中上半部分为遥感图像原图,下半部分为对应的标签图;
图6为本发明实施例进行预测的遥感图像原图;
图7为本发明实施例进行预测的遥感图像原图的预测图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种多级语义融合的云和云影检测方法,包括:
训练集和数据集的获取:
首先是训练集的获取,获取的图片大小为4800×2742像素,由于受到显卡内存的限制,将原始图片统一裁剪为224×224大小,裁剪方式为滑动无盖切割,最终得到3×224×224大小的图像,表示所裁剪获取的图像为3通道,宽高为224的大小,之后将所有图片以8:2的比例划分为训练集和验证集。
我们选取的图片包含多个不同角度、高度以及背景,目的是为了确保图片背景的复杂性,使得数据会更加具有真实性,图片背景主要包含林地,水域,荒漠,建筑,农田等多处景象,如图5所示,选取了训练集中的部分图片机器标签进行展示。
二、构建多级特征上下文语义融合网络
一种基于多级特征上下文语义融合网络的遥感图像云和云影的检测方法的结构如图1所示。采用端到端的训练方式,MFCSF主要由主干网络,多支路残差上下文语义模块(MRCS),多尺度卷积子通道注意力模块(MCSA),多尺度卷积子通道注意力模块(MCSA)以及特征融合上采样模块(FFU)构成。网络主要采取了多级特征融合的方法,将深层特征与浅层特征进行融合并加入注意力机制,总体是一个编码器-解码器的结构。该网络首先使用ResNet-18作为主干网络采用逐层下采样方式进行特征提取,接着将输出特征分别经过MRCS与MCSA模块进行上下文语义的提取以及特征强化,在网络中我们加入了大量的特征传输通道以及融合操作用于融合不同特征层的信息,编码器部分通过逐层上采样的同时将深层信息与浅层信息进行聚合可以使得网络中的上下文信息传播到更高分辨率的层中。最后在输出端采用一个残差模块进行通道阶梯细化。
需要进一步进行说明的是,在具体实施过程中,所述多支路残差上下文语义模块采用残差结构的形式,通过对输入张量进行一个捷径连接的方式实现恒等映射,既没有引入额外的参数也没有引入计算复杂性,且保留输入的部分原始参数;
主体部分采用双支路的连接方式,左边支路是一个上下文语义支路,用于提取上下文的语义信息,并且融入了自注意力机制来关注特征图中有意义的信息;右边支路是一个强化特征提取支路,在使用3x3卷积块的同时引入了两个条状卷积,用于强化特征的提取,实现效果的提升;
首先将输入张量经过一个1x1的卷积进行通道压缩,将通道压缩为原来的1/2,接着经过双支路输出后将输出张量进行融合,并与输入端构成残差连接后再经过一个双通道注意力模块,建模各个通道特征之间的重要性;
多支路残差上下文语义模块中引入了上下文语义支路,将卷积与注意力结合起来,使用卷积提取特征图中的局部信息,首先对于输入特征,使用一个3×3的卷积对输入进行特征映射来获得具有局部上下文信息联系的key,标记为K,使用一个1×1的卷积对输入进行特征映射来获得value,标记为V,而query仍然采用原来的值,将query标记为Q,之后将key与query进行concat并且进行了两次连续的卷积操作后得到每个像素点的权重Attention map,标记为A:
A=Conv(Conv(concat[K,Q]))
其中Conv(.)表示卷积操作,concat(.)表示将多个张量进行通道维度上的连接,与传统的注意力机制不同的是,这里的A是由Q和局部上下文语义信息K交互得到的,利用局部上下文语义信息之间的交互联系增强了注意力机制,之后再将这个A与V进行相乘得到动态上下文信息X:
X=A*V
最后将具有局部上下文信息的K与具有全局上下文信息的X相加便得到左边支路的输出结果;
右边支路引入了1×3和3×1这一组条状卷积块,通过分别使用3×3,1×3和3×1这三种卷积核来替代单一的3×3卷积核进行计算,之后再将三个输出相加得到最终输出。
需要进一步进行说明的是,在具体实施过程中,所述多尺度卷积子通道注意力模块用于提取深层通道互相之间的联系,通过分组卷积提取不同尺度的信息后经过改进的金字塔池化模块进一步提取深层语义信息,其中使用了条状池化来精确提取云和云影的边界信息,改善分割边界粗糙的问题,使用多尺度卷积来提取不同尺度的信息以此来提升模型的表达能力,在主支路中首先使用1×1,3×3,5×5,7×7不同尺寸的卷积核提取深层特征中不同尺度的信息,这样更好的提取特征图中的信息,接着使用改进的金子塔池化层对特征图中云和云影的边缘信息进行细化提取,最后进行拼接输出,主干支路计算过程如下:
Ci=Conv(ki×ki)(x)i=0,1,2,3
Ai1=Avg(ki×1)(Ci)i=0,1,2,3
Ai2=Avg(1×ki)(Ci)i=0,1,2,3
Ai=Ai1+Ai2
Y=DWConv(concat[A0,A1,A2,A3])
其中Conv(.)表示不同尺度的卷积,ki表示卷积核大小,Avg(.)表示不同尺寸的条状池化,DWConv(.)表示深度可分离卷积,concat(.)表示拼接操作;
对输入特征图进行通道上的Split,划分为不同的子通道,之后基于每个子通道上使用不同的卷积核进行卷积得到通道上的不同特征图,接着分别经过通道注意力提取不同尺度下的关注度,得到通道注意力向量,最后使用Softmax进一步对通道信息进行校准;
其中通道注意力模块允许对每个通道的重要性进行评估,从而关注重要的信息,同样的与大多数通道注意力一样首先使用一个自适应全局平均池化层对特征图进行通道信息的提取,接着经过两层一维卷积层对全局信息进行压缩和重新校准,最后通过非线性激活函数Sigmoid计算权重,整个辅助支路的计算过程如下:
Fi=Conv(ki×ki)(x)i=0,1,2,3
gi=GAP(Fi)
Si=Sigmoid(W1σ(W0(gi)))
Qi=Softmax(Si)
W=concat(Q1,Q2,Q3,Q4)
通过主支路的强化特征提取与辅助支路的通道权重计算得到特征图中的重要信息,将两者进行乘积,最后使用深度可分离卷积进行通道调整,计算公式如下:
output=DWConv(W*Y)。
需要进一步进行说明的是,所述特征融合上采样模块将高层特征的语义信息与低层特征的细节信息相互融合,使用高层特征丰富的类别信息来指导低层特征进行分类,采用双支路的模式对低级特征图中的信息进行提取,在左边支路中采用了“瓶颈结构”的模式,引入空洞卷积增大其感受野面积,右边支路同样引入空洞卷积,之后经过一个最大池化层减小邻域大小受限造成的估计值方差增大的误差,保留更多的图像背景信息,对于高级特征来说,首先采用双线性插值上采样的方法将高级特征图上采样到与低级特征图同样的大小,然后经过卷积层对其中的类别信息进行细化提取,将高层特征进行加权后与低层特征进行融合,最后将两边结果进行相加后经过1×1卷积对通道进行调整并输出。
由于遥感图像中包含的类别信息十分丰富,普通网络在识别云或者云影时很容易受到复杂背景的干扰,所以为了精确识别图片中的云和云影部分,我们在网络中加入了多支路残差上下文语义模块(MRCS),其整体结构图如图2所示,在整体网络中加入MRCS模块,可以很好的提取出不同空间位置之间的特征交互信息以及通道之间的相互联系。
在这个模块中,整体采用残差结构的形式,通过对输入张量进行一个捷径连接的方式实现恒等映射,这里既没有引入额外的参数也没有引入计算复杂性,可以保留输入的部分原始参数。此模块的主体部分采用双支路的连接方式,左边支路是一个上下文语义支路,用于提取上下文的语义信息,并且融入了自注意力机制来关注特征图中有意义的信息;右边支路是一个强化特征提取支路,在使用3×3卷积块的同时引入了两个条状卷积,用于强化特征的提取,实现效果的提升。
在云和云影检测过程中,云和云影的边界充满了不规则的形状,并且受到复杂背景的干扰,所以精确的识别出云和云影的边界信息显得十分困难,所以在这里我们提出了多尺度卷积子通道注意力模块(MCSA),整个模块不仅可以提取深层通道互相之间的联系,通过分组卷积提取不同尺度的信息后经过改进的金字塔池化模块进一步提取深层语义信息。其中使用条状池化来精确提取云和云影的边界信息,改善分割边界粗糙的问题。整个模块结构如图3所示。
最后在解码器上采样输出云和云影的分割图像时加入特征融合上采样模块(FFU),如图4所示是整个模块的结构图,在上采样过程中将高层特征的语义信息与低层特征的细节信息相互融合,使用高层特征丰富的类别信息来指导低层特征进行分类。
三、利用数据集进行网络模型的训练:
本发明采用有监督训练的训练模式,首先将数据集中的图片进行数据增强操作,以0.2的概率对数据集中的图片进行随机旋转,水平翻转或者垂直翻转操作,再将图片和标签转换为张量作为输入序列并将输入将每次的批量大小设置为8,采用等间隔调整学习率(StepLR)策略随着训练次数的增大相应的减小学习率来进行训练以达到更好的训练效果,其中将初始学习率设置为0.001,衰减系数为0.98,每训练3次更新一次学习率,一共训练了200次。在训练过程中使用Adam算法进行优化,反向传播更新网络的参数。
四、使用训练好的网络模型进行预测并生成云和云影的掩膜图像:
训练结束后得到模型的权重,接下来进入模型预测的预测阶段,本发明在预测时,使用训练好的多级特征上下文语义融合网络进行预测,输入一张彩色图片到模型中,如图6所示为进行测试的原始彩色遥感图像,经过训练好的权重提取特征进行编码解码操作后输出得到云和云影的掩膜图像,如图7所示。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内容。
Claims (10)
1.一种多级语义融合的云和云影检测方法,其特征在于,方法包括以下步骤:
从谷歌地球上直接获取到的原始图片,大小为4800×2742像素,之后将原始图片进行统一裁剪,之后通过人工手动进行图片标签的标注,将图片中的云层标注为红色,云影标注为绿色,背景标注为黑色,使得标签与原图一一对应,再将所有图片以8:2的比例划分为训练集和验证集;
构建多级特征上下文语义融合网络以及三个所属模块,其中包括多支路残差上下文语义模块,多尺度卷积子通道注意力模块和特征融合上采样模块;
将数据集中的图片进行数据增强操作,以0.2的概率对数据集中的图片进行随机旋转,水平翻转或者垂直翻转操作,再将图片和标签转换为张量作为输入序列,并将输入的批量大小设置为8,将初始学习率设置为0.001,衰减系数为0.98,每训练3次更新一次学习率,一共训练了200次,其中学习率计算公式如下:
lrN=lr0×βN/s
其中lrN为第N次训练的学习率大小,lr0为初始学习率,β为衰减系数,s为更新间隔,损失函数选择交叉熵损失函数,计算公式如下:
其中x是网络的输出张量,class是真实标签,训练过程中使用Adam算法来作为优化器,从而得到训练后的多级特征上下文语义融合网络;
输入一张彩色图片,将彩色图片经过训练后的多级特征上下文语义融合网络进行编码解码操作后输出得到云和云影的掩膜图像。
2.根据权利要求1所述的一种多级语义融合的云和云影检测方法,其特征在于,所述多支路残差上下文语义模块采用残差结构的形式,通过对输入张量进行一个捷径连接的方式实现恒等映射,既没有引入额外的参数也没有引入计算复杂性,且保留输入的部分原始参数;
主体部分采用双支路的连接方式,左边支路是一个上下文语义支路,用于提取上下文的语义信息,并且融入了自注意力机制来关注特征图中有意义的信息;右边支路是一个强化特征提取支路,在使用3x3卷积块的同时引入了两个条状卷积,用于强化特征的提取,实现效果的提升;
首先将输入张量经过一个1x1的卷积进行通道压缩,将通道压缩为原来的1/2,接着经过双支路输出后将输出张量进行融合,并与输入端构成残差连接后再经过一个双通道注意力模块,建模各个通道特征之间的重要性;
多支路残差上下文语义模块中引入了上下文语义支路,将卷积与注意力结合起来,使用卷积提取特征图中的局部信息,首先对于输入特征,使用一个3×3的卷积对输入进行特征映射来获得具有局部上下文信息联系的key,标记为K,使用一个1×1的卷积对输入进行特征映射来获得value,标记为V,而query仍然采用原来的值,将query标记为Q,之后将key与query进行concat并且进行了两次连续的卷积操作后得到每个像素点的权重Attentionmap,标记为A:
A=Conv(Conv(concat[K,Q]))
其中Conv(.)表示卷积操作,concat(.)表示将多个张量进行通道维度上的连接,与传统的注意力机制不同的是,这里的A是由Q和局部上下文语义信息K交互得到的,利用局部上下文语义信息之间的交互联系增强了注意力机制,之后再将这个A与V进行相乘得到动态上下文信息X:
X=A*V
最后将具有局部上下文信息的K与具有全局上下文信息的X相加便得到左边支路的输出结果;
右边支路引入了1×3和3×1这一组条状卷积块,通过分别使用3×3,1×3和3×1这三种卷积核来替代单一的3×3卷积核进行计算,之后再将三个输出相加得到最终输出。
3.根据权利要求1所述的一种多级语义融合的云和云影检测方法,其特征在于,所述多尺度卷积子通道注意力模块用于提取深层通道互相之间的联系,通过分组卷积提取不同尺度的信息后经过改进的金字塔池化模块进一步提取深层语义信息,其中使用了条状池化来精确提取云和云影的边界信息,改善分割边界粗糙的问题,使用多尺度卷积来提取不同尺度的信息以此来提升模型的表达能力,在主支路中首先使用1×1,3×3,5×5,7×7不同尺寸的卷积核提取深层特征中不同尺度的信息,这样更好的提取特征图中的信息,接着使用改进的金子塔池化层对特征图中云和云影的边缘信息进行细化提取,最后进行拼接输出,主干支路计算过程如下:
Ci=Conv(ki×ki)(x)i=0,1,2,3
Ai1=Avg(ki×1)(Ci)i=0,1,2,3
Ai2=Avg(1×ki)(Ci)i=0,1,2,3
Ai=Ai1+Ai2
Y=DWConv(concat[A0,A1,A2,A3])
其中Conv(.)表示不同尺度的卷积,ki表示卷积核大小,Avg(.)表示不同尺寸的条状池化,DWConv(.)表示深度可分离卷积,concat(.)表示拼接操作;
对输入特征图进行通道上的Split,划分为不同的子通道,之后基于每个子通道上使用不同的卷积核进行卷积得到通道上的不同特征图,接着分别经过通道注意力提取不同尺度下的关注度,得到通道注意力向量,最后使用Softmax进一步对通道信息进行校准;
其中通道注意力模块允许对每个通道的重要性进行评估,从而关注重要的信息,同样的与大多数通道注意力一样首先使用一个自适应全局平均池化层对特征图进行通道信息的提取,接着经过两层一维卷积层对全局信息进行压缩和重新校准,最后通过非线性激活函数Sigmoid计算权重,整个辅助支路的计算过程如下:
Fi=Conv(ki×ki)(x)i=0,1,2,3
gi=GAP(Fi)
Si=Sigmoid(W1σ(W0(gi)))
Qi=Softmax(Si)
W=concat(Q1,Q2,Q3,Q4)
通过主支路的强化特征提取与辅助支路的通道权重计算得到特征图中的重要信息,将两者进行乘积,最后使用深度可分离卷积进行通道调整,计算公式如下:
output=DWConv(W*Y)。
4.根据权利要求1所述的一种多级语义融合的云和云影检测方法,其特征在于,所述特征融合上采样模块将高层特征的语义信息与低层特征的细节信息相互融合,使用高层特征丰富的类别信息来指导低层特征进行分类,采用双支路的模式对低级特征图中的信息进行提取,在左边支路中采用了“瓶颈结构”的模式,引入空洞卷积增大其感受野面积,右边支路同样引入空洞卷积,之后经过一个最大池化层减小邻域大小受限造成的估计值方差增大的误差,保留更多的图像背景信息,对于高级特征来说,首先采用双线性插值上采样的方法将高级特征图上采样到与低级特征图同样的大小,然后经过卷积层对其中的类别信息进行细化提取,将高层特征进行加权后与低层特征进行融合,最后将两边结果进行相加后经过1×1卷积对通道进行调整并输出。
5.根据权利要求1所述的一种多级语义融合的云和云影检测方法,其特征在于,所述多级特征上下文语义融合网络主要采取了多级特征融合的方法,将深层特征与浅层特征进行融合并加入注意力机制,总体是一个编码器-解码器的结构,首先使用残差网络ResNet-18作为主干网络并采用逐层下采样方式进行特征提取,接着将输出特征分别经过多支路残差上下文语义模块与多尺度卷积子通道注意力模块进行上下文语义的提取以及特征强化,加入大量的特征传输通道以及融合操作用于融合不同特征层的信息,编码器部分通过逐层上采样的同时将深层信息与浅层信息进行聚合使得网络中的上下文信息传播到更高分辨率的层中,最后在输出端采用一个残差模块进行通道阶梯细化。
6.根据权利要求1所述的一种多级语义融合的云和云影检测方法,其特征在于,所述裁剪的方式为滑动无盖切割,所裁剪获取的图像为3通道,宽高为224的大小。
7.根据权利要求6所述的一种多级语义融合的云和云影检测方法,其特征在于,所述裁剪后的图片的大小为224×224。
8.根据权利要求2所述的一种多级语义融合的云和云影检测方法,其特征在于,经过双支路特征提取后进入一个双通道注意力模块,由于常见的通道注意力大都是直接采用全局平均池化从而会导致边缘信息的丢失,使用两种类型的全局池化操作,分别是全局平均池化和全局最大池化,使得提取到的特征信息更加丰富,接着使用1x1卷积操作提取通道之间的相互信息,主要关注不同的特征信息在不同通道之间的重要性,计算公式如下:
gmax=Conv1d(GMP(x))
gavg=Conv1d(GAP(x))
其中GMP(.),GAP(.)分别为全局最大池化和全局平均池化操作,Conv1d(.)为一维卷积操作,接着将两条分支的结果进行拼接后经过卷积操作,自适应的关注全局平均池化和最大池化的特征信息,加强对有用信息的关注,如云层和云影的边缘轮廓和像素颜色值,弱化了对无用信息的关注,如背景农田和房屋建筑,最后经过非线性激活函数Sigmoid(.)与输入原始特征层进行乘积运算得到最后的输出结果,计算过程如下:
g=concat(gmax,gavg)
W=Sigmoid(Conv1d(g))
yout=x*W
其中concat(.)表示拼接操作,Sigmoid(.)表示非线性激活函数,Conv1d(.)表示一维卷积操作。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的一种多级语义融合的云和云影检测方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的一种多级语义融合的云和云影检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210699396.8A CN114943876A (zh) | 2022-06-20 | 2022-06-20 | 一种多级语义融合的云和云影检测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210699396.8A CN114943876A (zh) | 2022-06-20 | 2022-06-20 | 一种多级语义融合的云和云影检测方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114943876A true CN114943876A (zh) | 2022-08-26 |
Family
ID=82910657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210699396.8A Pending CN114943876A (zh) | 2022-06-20 | 2022-06-20 | 一种多级语义融合的云和云影检测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943876A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424023A (zh) * | 2022-11-07 | 2022-12-02 | 北京精诊医疗科技有限公司 | 一种增强小目标分割性能的自注意力机制模块 |
CN115439654A (zh) * | 2022-11-07 | 2022-12-06 | 武汉数字家园科技有限公司 | 动态约束下的弱监督农田地块精细化分割方法及*** |
CN115830471A (zh) * | 2023-01-04 | 2023-03-21 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
CN116434045A (zh) * | 2023-03-07 | 2023-07-14 | 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) | 一种烟叶烘烤阶段智能识别方法 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN118154855B (zh) * | 2024-05-09 | 2024-07-02 | 吉林农业大学 | 一种绿色果实伪装目标检测方法 |
-
2022
- 2022-06-20 CN CN202210699396.8A patent/CN114943876A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424023A (zh) * | 2022-11-07 | 2022-12-02 | 北京精诊医疗科技有限公司 | 一种增强小目标分割性能的自注意力机制模块 |
CN115439654A (zh) * | 2022-11-07 | 2022-12-06 | 武汉数字家园科技有限公司 | 动态约束下的弱监督农田地块精细化分割方法及*** |
CN115830471A (zh) * | 2023-01-04 | 2023-03-21 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
CN115830471B (zh) * | 2023-01-04 | 2023-06-13 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
CN116434045A (zh) * | 2023-03-07 | 2023-07-14 | 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) | 一种烟叶烘烤阶段智能识别方法 |
CN116434045B (zh) * | 2023-03-07 | 2024-06-14 | 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) | 一种烟叶烘烤阶段智能识别方法 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN117765378B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN118154855B (zh) * | 2024-05-09 | 2024-07-02 | 吉林农业大学 | 一种绿色果实伪装目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN111986099A (zh) | 基于融合残差修正的卷积神经网络的耕地监测方法及*** | |
CN111598174A (zh) | 图像地物要素分类模型的训练方法、图像分析方法及*** | |
CN115049936A (zh) | 一种面向高分遥感影像的边界增强型语义分割方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN113780296A (zh) | 基于多尺度信息融合的遥感图像语义分割方法及*** | |
CN112149547A (zh) | 基于图像金字塔引导和像素对匹配的遥感影像水体识别 | |
CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及*** | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
Chen et al. | ASF-Net: Adaptive screening feature network for building footprint extraction from remote-sensing images | |
CN113411550B (zh) | 视频上色方法、装置、设备及存储介质 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质 | |
CN113762396A (zh) | 一种二维图像语义分割方法 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN112257496A (zh) | 一种基于深度学习的输电通道周围环境分类方法及*** | |
CN115661932A (zh) | 一种垂钓行为检测方法 | |
CN104463962A (zh) | 基于gps信息视频的三维场景重建方法 | |
CN117522903A (zh) | 一种基于SF-Unet模型的高分辨率耕地遥感影像分割方法 | |
CN113012167B (zh) | 一种细胞核与细胞质的联合分割方法 | |
CN115205624A (zh) | 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 | |
CN112396126A (zh) | 一种基于检测主干与局部特征优化的目标检测方法及*** | |
Chen et al. | Building extraction from high-resolution remote sensing imagery based on multi-scale feature fusion and enhancement | |
CN117557775B (zh) | 基于红外和可见光融合的变电站电力设备检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |