CN117593187A - 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 - Google Patents
基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 Download PDFInfo
- Publication number
- CN117593187A CN117593187A CN202311579041.6A CN202311579041A CN117593187A CN 117593187 A CN117593187 A CN 117593187A CN 202311579041 A CN202311579041 A CN 202311579041A CN 117593187 A CN117593187 A CN 117593187A
- Authority
- CN
- China
- Prior art keywords
- resolution
- low
- super
- image
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000005070 sampling Methods 0.000 claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000012549 training Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,获得原始遥感图像数据集多种比例因子下的低分‑高分图像对;对低分图像分别提取密集残差注意力低分特征和基于视觉Transformer网络的低分特征,并进行融合;将高分图像输入至元上采样模块进行元学习预测得到相应比例因子的上采样滤波器,基于上采样滤波器利用基于视觉Transformer网络的低分特征,得到超分图像。本发明在超分重建过程中同时利用遥感图像的全局语义信息和局部目标信息,提升重建结果的感知质量。结合元上采样方法解决利用单一超分模型解决多尺度超分辨率重建的问题,最终实现了基于任意比例因子的超分重建算法。
Description
技术领域
本发明涉及模式识别与机器学习技术领域,特别涉及一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法。
背景技术
遥感图像是通过各种传感器获得的包含地物电磁波信息的图片,具有种类多,数据量大,涵盖的时间和空间范围广的特点。空间分辨率是描述遥感图像的一个重要指标,指遥感图像能区分的最小地面单元,即遥感图像的一个像素的长度对应实际地面上的一段距离,该距离决定了遥感图像能包含的最细微的地物信息。提升遥感图像空间分辨率是遥感领域的重要课题,除了在硬件层面直接提高传感器本身的性能外,还可在软件层面设计算法实现遥感图像空间分辨率的提升,这类技术被称为超分辨率重建技术。
图像超分辨率重建技术(以下简称超分重建)可以根据不同任务需求,将低分辨率图像(以下简称低分图像)按照一定比例因子恢复到高分辨率图像(以下简称高分图像),如果是在遥感图像空间尺度进行超分则可以提升其空间分辨率。在超分重建中,按不同比例因子放大图像会生成不同大小的结果,即比例因子的改变会导致低分图像到高分图像间映射规则的变化,因此对超分重建而言,不同的比例因子代表不同的任务。大部分基于单一比例因子的超分重建算法只能按一种比例因子对图像进行超分。而在真实遥感图像的超分处理任务中,通常要对图像进行不同的整数或非整数倍放大。若是对每种可能的比例因子都训练一个模型并存储到计算平台中,会造成极大的算力和空间资源的浪费。因此基于任意比例因子的超分重建算法对遥感图像处理而言更具实用性。
遥感图像超分重建可大致分为非深度学习(传统)方法和深度学习方法。传统遥感图像超分重建主要基于插值算法,例如最近邻插值、线性插值、双线性插值和双三次插值等。此外还有基于边缘保持的超分重建,这种方法旨在保持边缘信息的同时提高遥感图像的分辨率。传统方法虽然计算简单,但是对于具有复杂纹理的遥感图像而言存在难以恢复高频细节信息的问题。此外对于整数和小范围内的比例因子,传统方法具有良好的表现并能满足实际应用需求,但对于非整数和更大的比例因子,如3.2、5、20等,传统方法便难以满足要求。
随着深度学习技术的发展,各种基于神经网络的遥感图像超分重建技术被提出。其中卷积神经网络是目前最常用的方法之一,另外还有近年来被广泛应用于无监督图像生成的生成对抗网络,也在遥感图像超分重建领域取得了良好表现,实现了更高感知质量的遥感图像重建效果。基于深度网络的超分重建方法相比于传统方法,无论是在模型大小、运算速度还是重建效果方面,都取得了明显提升,但也存在两大问题。第一,现有的基于卷积神经网络和生成对抗网络的模型只能处理一种比例因子下的遥感图像超分辨率重建任务,在多尺度层面上缺少泛化性。第二,基于纯卷积的网络易受遥感图像丰富地物目标和复杂纹理信息的影响,使得重建结果中出现高频噪声和伪影,降低了重建效果。
因此,如何提供一种实现多种比例因子下的遥感图像超分辨率重建的同时,提升重建结果的感知质量的遥感图像超分辨率重建方法是本领域技术人员亟待解决的技术问题。
发明内容
本发明针对上述研究现状和存在的问题,提供了一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法。采用视觉Transformer在超分重建过程中引入遥感图像的全局语义特征,利用元上采样模块获得对应比例因子的上采样滤波器,将低分特征图映射到高分图像的尺寸,得到最终的超分输出。
本发明提供的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,基于低分特征提取网络和元上采样模块构建的网络架构;包括如下步骤:
S1:对原始遥感图像数据集在给定比例因子范围内按预设步长进行双三次下采样,获得多种比例因子下的低分-高分图像对;所述低分-高分图像对包括同一原始遥感图像对应的低分图像和高分图像;
S2:将所述低分图像输入至低分特征提取网络提取低分特征,所述低分特征包括基于卷积的密集残差注意力低分特征和基于视觉Transformer网络的低分特征,并将得到的双路低分特征进行融合;
S3:将所述高分图像输入至元上采样模块进行元学习预测得到相应比例因子的上采样滤波器,所述上采样滤波器将基于视觉Transformer网络的低分特征映射到所述高分图像的尺寸,得到超分图像;
S4:基于所述超分图像与所述高分图像计算损失,并优化所述低分特征提取网络和元上采样模块的参数。
优选的,所述S2中的低分特征提取网络包括密集残差注意力网络,所述基于卷积的密集残差注意力低分特征的提取过程包括:
密集残差注意力块通过点卷积输出低分特征图;
所述低分特征图经由全局平均池化提取全局信息,再通过一维卷积获得特征通道间的相关关系;
所述相关关系由Sigmoid函数非线性化后得到权重向量;权重向量和输入的低分特征图相乘完成对特征图通道的加权,即完成一次对通道施加注意力的过程,得到注意力特征图。
优选的,所述S2中的低分特征提取网络包括视觉Transformer网络;所述基于视觉Transformer网络的低分特征的提取步骤包括:
将输入的所述低分图像按通道分离;
分别对每个通道提取特征向量vTrans;
将来自不同通道的特征向量vTrans展平后再按通道合并,得到基Transformer特征图FTrans;
基Transformer特征图FTrans经过两层卷积后输出用于S3的基于视觉Transformer网络的低分特征图FLR。
优选的,所述S2中将得到的双路低分特征进行融合的步骤包括:
FLR(i',j')=Ψ(FTrans(i',j'),FRDCA(i',j'))=aFTrans(i',j')+bFRDCA(i',j')
式中,Ψ(·)表示特征融合函数,a和b分别表示Transformer特征图FTrans和密集残差注意力特征图FRDCA的权重,(i',j')表示低分特征图的像素位置。
优选的,所述S3包括:
根据高分图像尺寸以及当前输入的比例因子计算偏移矩阵;
包含比例因子信息的偏移矩阵经过权重预测全连接网络计算上采样滤波器的卷积核参数,得到相应比例因子的上采样滤波器;
所述上采样滤波器将基于视觉Transformer网络的低分特征映射到高分图像尺寸,得到超分图像。
优选的,所述S4包括:
基于所述超分图像与所述高分图像计算L1损失,并采用随机梯度下降法优化所述低分特征提取网络和元上采样模块的参数,L1损失的计算公式如下:
L=Σ|ISR(i,j)-IHR(i,j)|
式中,ISR(i,j)表示超分图像ISR中位置为(i,j)的像素值;IHR(i,j)表示高分图像ISR中位置为(i,j)的像素值。
本发明相较现有技术具有以下有益效果:
本发明基于低分特征提取网络和元上采样模块构建的网络架构对多种比例因子低分-高分图像对进行有监督训练和有参考质量评估,满足多尺度超分重建任务的需求。并且,本发明基于密集残差注意力网络和视觉Transformer网络对输入低分图像提取双路特征,在超分重建过程中同时利用遥感图像的全局语义信息和局部目标信息,提升重建结果的感知质量。结合元上采样方法解决利用单一超分模型解决多尺度超分辨率重建的问题,最终实现了基于任意比例因子的超分重建算法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例提供的基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法流程图;
图2是本发明实施例提供的密集残差注意力特征提取网络结构图;
图3是本发明实施例提供的通道注意力层结构图;
图4是本发明实施例提供的视觉Transformer特征提取网络结构图;
图5是本发明实施例提供的网络架构的整体框架图;
图6是本发明实施例提供的遥感卫星数据集的超分效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,下面对元学习和Transformer的实现方法进行说明:
元学***。
Transformer是一种基于自注意力机制的神经网络架构,Transformer中的自注意力机制可以使模型关注输入序列中不同位置的信息,并根据这些信息进行加权计算,从而更好地捕捉序列中的长期依赖关系。遥感图像中包含复杂的纹理细节,使用基于卷积的神经网络可以提取遥感图像的局部地物目标信息,重建小区域内的目标细节,但也存在难以充分利用全局信息,以及容易受到局部噪声干扰,使最终的超分重建结果降质的问题。采用视觉Transformer在超分重建过程中引入遥感图像的全局语义特征,可以减轻使用卷积网络造成的超分辨率重建结果中的伪影,提升重建结果的感知质量。
本发明实施例基于低分特征提取网络和元上采样模块构建的网络架构,如图5所示;包括如下步骤:
S1:对原始遥感图像数据集在给定比例因子范围内按预设步长进行双三次下采样,获得多种比例因子下的低分-高分图像对;低分-高分图像对包括同一原始遥感图像对应的低分图像和高分图像;
S2:将低分图像输入至低分特征提取网络提取低分特征,低分特征包括基于卷积的密集残差注意力低分特征和基于视觉Transformer网络的低分特征,并将得到的双路低分特征进行融合;
S3:将高分图像输入至元上采样模块进行元学习预测得到相应比例因子的上采样滤波器,上采样滤波器将基于视觉Transformer网络的低分特征映射到高分图像的尺寸,得到超分图像;
S4:基于超分图像与高分图像计算损失,并优化低分特征提取网络和元上采样模块的参数。
需要说明的是,高空间分辨率(高分)指原始真值图像的空间分辨率,低空间分辨率(低分)指对真值图像按一定比例因子进行下采样后的理论空间分辨率,超分辨率(超分)指对图像按给定比例因子重建后的理论空间分辨率。
例如,原始图像空间分辨率为8m,经2倍下采样后低分图像的理论空间分辨率为16m,对原始图像进行8倍超分重建后其理论空间分辨率为1m。
在一个实施例中,对于超分重建任务,在进行有监督训练和有参考质量评估时,需要对训练数据和测试数据按一定比例因子进行下采样以获得低分-高分图像对。同时由于是多尺度超分,所以需要多种比例因子下的图像对。本算法采用双三次下采样对数据集进行预处理,其中训练数据以0.1为步长,测试数据以0.5为步长。训练数据集的采样范围为1.1到4.0,测试数据可根据算力情况任意设置比例因子。
双三次下采样进行预处理包括使用双三次插值法(Bicubic)对高分辨率图像进行缩放。
在一个实施例中,本算法采用的特征提取网络需要输入低分图像并提取双路特征,包括基于卷积的密集残差注意力特征和基于视觉Transformer的特征。具体的,低分特征提取网络包括密集残差注意力网络,密集残差注意力网络是一种基于卷积的神经网络,可以在超分重建过程中强调遥感图像的局部特征,提高超分图像中局部细节的重建效果,网络结构如图2所示。通道注意力是一种引导卷积网络关注特征图更重要的通道的机制,本算法采用高效的通道注意力层实现对特征图通道方向上的加权。
基于卷积的密集残差注意力低分特征的提取过程包括:
密集残差注意力块通过点卷积输出低分特征图;
输入的低分特征图经由全局平均池化提取全局信息,再通过一维卷积获得特征通道间的相关关系;
相关关系由Sigmoid函数非线性化后得到权重向量;权重向量和输入的低分图像相乘完成对特征图通道的加权,即完成一次对通道施加注意力的过程,得到注意力特征图。
本实施例中,计算公式如下:
s=Feca(X,θ)=σ(Conv1D(GAP(X),θ))
Y=sX
式中,X是输入的低分特征图;Y是对输入低分特征图按通道加权后得到的特征图,s为注意力模块根据参数θ计算得到的权重向量。在通道注意力层中,输入X首先经由全局平均池化GAP(·)以提取全局信息,然后通过一维卷积Conv1D(·)获得特征通道间的相关关系,最后由Sigmoid函数σ(·)非线性化后得到s。s和X相乘可实现对特征图通道的加权,即完成一次对通道施加注意力的过程。通道注意力层的展开结构如图3所示。
在一个实施例中,S2中的低分特征提取网络包括视觉Transformer网络,视觉Transformer是一种基于自注意力机制的神经网络架构,与卷积神经网络使用固定大小的卷积核不同,该网络首先将输入图像划分为一系列小的图像块,每个图像块都被视为一个单词,随后通过嵌入操作将这些图像块转换为向量表示,可以自适应处理不同尺寸的输入图像,然后视觉Transformer将这些向量表示输入到多个Transformer编码器中进行特征提取和信息压缩。
基于视觉Transformer网络的低分特征的提取步骤包括:
将输入的低分图像按通道分离;
分别对每个通道提取特征向量vTrans;
将来自不同通道的特征向量vTrans展平后再按通道合并,得到基Transformer特征图FTrans;
基Transformer特征图FTrans经过两层卷积后输出用于S3的基于视觉Transformer网络的低分特征图FLR。
这种分支结构既可以保证特征向量在传播过程中不丢失通道信息,也可以使网络能逐通道地提取图像的全局语义特征。
本实施例中,整个视觉Transformer特征提取过程可用下式描述:
vTrans=Transformer(Embed(Chunk(ILR));γ)
FTrans=Concat(View(vTrans))
FLR=Conv2D(Conv2D(FTrans;α);β)
式中Chunk(·)和Concat(·)分别表示按通道分离和合并特征图的操作,Embed(·)和View(·)分别表示将图像嵌入为图像块序列和将序列重整为特征图的操作,这些函数均没有参数化。此外,式中α、β和γ表示参数化的网络,这些参数在网络训练过程中都会根据损失不断更新。Transformer(·)表示视觉Transformer编码器,特征提取网络结构如图4所示。
在一个实施例中,为了在超分重建过程中同时利用遥感图像的全局语义信息和局部目标信息,需要将双路特征融合得到低分辨率图像特征图,融合过程可用下式描述:
FLR(i',j')=Ψ(FTrans(i',j'),FRDCA(i',j'))=aFTrans(i',j')+bFRDCA(i',j')
式中,Ψ(·)表示特征融合函数,a和b分别表示Transformer特征图FTrans和密集残差注意力特征图FRDCA的权重,(i',j')表示低分特征图的像素位置。
在一个实施例中,S3中的元上采样模块通过权重预测、位置投影和特征映射功能实现任意尺度超分。算法流程包括:
根据高分图像尺寸H和W以及当前输入的比例因子计算偏移矩阵,该矩阵维度为HW×3;
包含比例因子信息的偏移矩阵经过权重预测全连接网络计算上采样滤波器的卷积核参数,得到相应比例因子的上采样滤波器;
上采样滤波器将基于视觉Transformer网络的低分特征映射到高分图像尺寸,得到超分图像。
本实施例中,元上采样的计算公式如下:
ISR(i,j)=Φ(FLR(i',j'),W(i,j))
W(i,j)=φ(vij;ω)
Φ(FLR(i',j'),W(i,j))=FLR(i',j')W(i,j)
式中,ISR(i,j)表示超分图像ISR中位置为(i,j)的像素值,FLR(i',j')表示低分图像中位置为(i',j')的像素特征值,函数Φ(·)表示计算ISR像素值的特征映射函数。W(i,j)表示上采样滤波器w对ISR中像素(i,j)的权重,φ(·)表示以vij为输入,以ω为参数的全连接网络,上采样滤波器W的权重通过全连接网络预测得到。vij是根据比例因子r和位置(i,j)计算得到的相对低分图像像素(i',j')的偏移向量,即偏移矩阵的行向量。位置投影采用向下取整函数实现,r表示当前输入的比例因子。
在一个实施例中,S4包括:
基于超分图像与高分图像计算L1损失,并采用随机梯度下降法优化低分特征提取网络和元上采样模块的参数,元上采样模块的参数包括权重预测网络参数,L1损失的计算公式如下:
L=Σ|ISR(i,j)-IHR(i,j)|
式中,ISR(i,j)表示超分图像ISR中位置为(i,j)的像素值;IHR(i,j)表示高分图像ISR中位置为(i,j)的像素值。
下面结合具体的实验结果对本发明技术效果进行说明:
实验中使用的数据集包括DIV2K数据集、AID数据集和来自中国澳门科普卫星的真实遥感图像数据。其中DIV2K和AID数据集用作训练,澳门数据作为测试集使用。对澳门科普卫星遥感图像进行了大小为50×50像素的随机裁剪,并挑选出75张具有丰富地物目标信息和纹理细节的图像构成测试数据集。这些数据集中AID和澳门科普卫星数据为遥感数据,其中AID的空间分辨率为0.5m到0.8m,澳门科普卫星遥感图像的空间分辨率为8m。实验结果如图6所示。
以上对本发明所提供的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (6)
1.一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,其特征在于:基于低分特征提取网络和元上采样模块构建的网络架构;包括如下步骤:
S1:对原始遥感图像数据集在给定比例因子范围内按预设步长进行双三次下采样,获得多种比例因子下的低分-高分图像对;所述低分-高分图像对包括同一原始遥感图像对应的低分图像和高分图像;
S2:将所述低分图像输入至低分特征提取网络提取低分特征,所述低分特征包括基于卷积的密集残差注意力低分特征和基于视觉Transformer网络的低分特征,并将得到的双路低分特征进行融合;
S3:将所述高分图像输入至元上采样模块进行元学习预测得到相应比例因子的上采样滤波器,所述上采样滤波器将基于视觉Transformer网络的低分特征映射到所述高分图像的尺寸,得到超分图像;
S4:基于所述超分图像与所述高分图像计算损失,并优化所述低分特征提取网络和元上采样模块的参数。
2.根据权利要求1所述的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,其特征在于,所述S2中的低分特征提取网络包括密集残差注意力网络,所述基于卷积的密集残差注意力低分特征的提取过程包括:
密集残差注意力块通过点卷积输出低分特征图;
所述低分特征图经由全局平均池化提取全局信息,再通过一维卷积获得特征通道间的相关关系;
所述相关关系由Sigmoid函数非线性化后得到权重向量;权重向量和输入的低分特征图相乘完成对特征图通道的加权,即完成一次对通道施加注意力的过程,得到注意力特征图。
3.根据权利要求1所述的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,其特征在于,所述S2中的低分特征提取网络包括视觉Transformer网络;所述基于视觉Transformer网络的低分特征的提取步骤包括:
将输入的所述低分图像按通道分离;
分别对每个通道提取特征向量vTrans;
将来自不同通道的特征向量vTrans展平后再按通道合并,得到基Transformer特征图FTrans;
基Transformer特征图FTrans经过两层卷积后输出用于S3的基于视觉Transformer网络的低分特征图FLR。
4.根据权利要求1所述的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,其特征在于,所述S2中将得到的双路低分特征进行融合的步骤包括:
FLR(i′,j')=Ψ(FTrans(i′,j'),FRDCA(i',j'))=aFTrans(i',j')+bFRDCA(i',j')
式中,Ψ(·)表示特征融合函数,a和b分别表示Transformer特征图FTrans和密集残差注意力特征图FRDCA的权重,(i',j')表示低分特征图的像素位置。
5.根据权利要求1所述的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,其特征在于,所述S3包括:
根据高分图像尺寸以及当前输入的比例因子计算偏移矩阵;
包含比例因子信息的偏移矩阵经过权重预测全连接网络计算上采样滤波器的卷积核参数,得到相应比例因子的上采样滤波器;
所述上采样滤波器将基于视觉Transformer网络的低分特征映射到高分图像尺寸,得到超分图像。
6.根据权利要求1所述的一种基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法,其特征在于,所述S4包括:
基于所述超分图像与所述高分图像计算L1损失,并采用随机梯度下降法优化所述低分特征提取网络和元上采样模块的参数,L1损失的计算公式如下:
L=Σ|ISR(i,j)-IHR(i,j)|
式中,ISR(i,j)表示超分图像ISR中位置为(i,j)的像素值;IHR(i,j)表示高分图像ISR中位置为(i,j)的像素值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311579041.6A CN117593187A (zh) | 2023-11-24 | 2023-11-24 | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311579041.6A CN117593187A (zh) | 2023-11-24 | 2023-11-24 | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117593187A true CN117593187A (zh) | 2024-02-23 |
Family
ID=89909492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311579041.6A Pending CN117593187A (zh) | 2023-11-24 | 2023-11-24 | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593187A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853340A (zh) * | 2024-03-07 | 2024-04-09 | 北京航空航天大学 | 基于单向卷积网络和降质建模的遥感视频超分辨率重建方法 |
-
2023
- 2023-11-24 CN CN202311579041.6A patent/CN117593187A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853340A (zh) * | 2024-03-07 | 2024-04-09 | 北京航空航天大学 | 基于单向卷积网络和降质建模的遥感视频超分辨率重建方法 |
CN117853340B (zh) * | 2024-03-07 | 2024-06-04 | 北京航空航天大学 | 基于单向卷积网络和降质建模的遥感视频超分辨率重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
CN109949255B (zh) | 图像重建方法及设备 | |
CN109389556B (zh) | 一种多尺度空洞卷积神经网络超分辨率重构方法及装置 | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨*** | |
CN112132959B (zh) | 数字岩心图像处理方法、装置、计算机设备及存储介质 | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN112837224A (zh) | 一种基于卷积神经网络的超分辨率图像重建方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN117593187A (zh) | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
CN116452930A (zh) | 降质环境下基于频域增强的多光谱图像融合方法与*** | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN117788296B (zh) | 基于异构组合深度网络的红外遥感图像超分辨率重建方法 | |
CN114926734A (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
Sharma et al. | Different techniques of image SR using deep learning: a review | |
Dharejo et al. | SwinWave-SR: Multi-scale lightweight underwater image super-resolution | |
CN116188272B (zh) | 适用于多模糊核的两阶段深度网络图像超分辨率重建方法 | |
CN116778470A (zh) | 对象识别及对象识别模型训练方法、装置、设备及介质 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
CN116128722A (zh) | 基于频域-纹理特征融合的图像超分辨率重建方法及*** | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 | |
CN115205308A (zh) | 一种基于线状滤波和深度学习的眼底图像血管分割方法 | |
CN114862699A (zh) | 基于生成对抗网络的人脸修复方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |