CN116452930A - 降质环境下基于频域增强的多光谱图像融合方法与*** - Google Patents
降质环境下基于频域增强的多光谱图像融合方法与*** Download PDFInfo
- Publication number
- CN116452930A CN116452930A CN202310311387.1A CN202310311387A CN116452930A CN 116452930 A CN116452930 A CN 116452930A CN 202310311387 A CN202310311387 A CN 202310311387A CN 116452930 A CN116452930 A CN 116452930A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- frequency information
- fusion
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015556 catabolic process Effects 0.000 title claims abstract description 22
- 238000006731 degradation reaction Methods 0.000 title claims abstract description 22
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 17
- 230000004927 fusion Effects 0.000 title claims description 53
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 70
- 238000000034 method Methods 0.000 claims description 38
- 239000000284 extract Substances 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000011218 segmentation Effects 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种降质环境下基于频域增强的多光谱图像融合方法和***,涉及图像处理技术领域。本发明使用ViT骨干网络作为特征编码器提取多尺度多光谱特征,并设计高频和低频模块提取提升ViT模型中自注意力结构,捕获多光谱图像中频率信息。再通过嵌套连接架构充分利用深层特征,并进一步融合来自编码器网络提取的不同尺度信息,通过逐层上采样输出高分辨融合图像。最终实现在降质环境下充分利用多光谱图像互补信息,有效抑制背景杂波,显著增强目标特征,为下游目标检测、跟踪和分割等具体任务提供高质量、可靠的图像数据。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种降质环境下基于频域增强的多光谱图像融合方法与***。
背景技术
多光谱图像融合是图像处理中的一项重要技术,旨在通过使用适当的特征提取方法和融合策略,从源图像中生成包含显著特征和互补信息的单个图像。当前最先进的融合算法广泛应用于许多应用中,例如自动驾驶车辆、视觉跟踪和智能安防。
融合算法可以大致分为两类:传统方法和基于深度学习的方法。大多数传统方法都基于已取得良好性能的信号处理算子。近年来,基于深度学习的方法在图像融合任务中表现出巨大的潜力,并且被认为提供了比传统算法更好的性能。
传统方法通常包括两种方法:基于多尺度的方法和基于稀疏和低秩表示(low-rank representation,LRR)学习的方法。
多尺度方法通常将源图像分解为不同的尺度以提取特征,并使用适当的融合策略来融合每个尺度特征。然后使用逆算子来重建融合图像。尽管这些方法表现出良好的融合性能,但它们的性能高度依赖于多尺度方法。
在开发基于深度学习的融合方法之前,稀疏表示(sparse representation,SR)和LRR已经引起了极大的关注。基于联合稀疏表示(joint sparse representation,JSR)方法从源图像中提取公共信息和互补特征。
基于LRR和字典学习的多焦点图像融合方法,首先将源图像划分为图像块,并利用定向梯度直方图(histogram of oriented gradient,HOG)特征对每个图像块进行分类。通过K奇异值分解(K-SVD)学习全局字典。此外,还有许多其他方法结合了SR和其他算子,例如脉冲耦合神经网络(PCNN)和剪切波变换。
传统融合方法存在以下缺点:融合算法的运行效率高度依赖于字典学习等结构算子;以及当输入图像很复杂时,传统方法泛化性差,导致融合性能下降。
为了解决这些缺点,在过去的几年中,已经提出了许多基于深度学习的融合方法。采用有训练的策略可以训练出适合图像融合任务的模型以获得更好的融合性能,因此最新的深度学习方法都是基于这种策略。在红外和可见光图像融合领域,采用基于密集块和自动编码器架构来融合多光谱数据,基于深度学习方法没有下采样操作,无法提取多尺度特征,深度多光谱特征没有得到充分利用。缺少经过精心设计的融合模块来实现融合多尺度多光谱深层特征。
此外,传统方法通过利用手工制作的低级特征来融合多光谱图像,因此这些方法在复杂场景中往往失败。一些方法试图设计纹理增强模块或采用注意机制来引导模型关注多光谱图像中互补区域。所有这些最新的基于深度学习的方法都有一个共同的特点:它们只是通过复杂的技术来增强图像的光谱图像域的信息。缺少对频域信息的有效利用。
因此,为了更好地从RGB-T图像中建模光谱不变信息和光谱特有信息,需要一种能够实现鲁棒多光谱图像融合的方案。
发明内容
近年来,传感器技术的进步和发展为降质环境下目标感知提供了更多光谱数据,为了有效利用多光谱图像特征,以及针对现有技术中存在的上述技术问题,本发明提出一种降质环境下基于频域增强的多光谱图像融合方案;该方案结合图像的高频局部细节信息和低频全局结构信息,实现在降质条件下有效抑制背景杂波,增强有用目标特征,为目标检测、跟踪和分割等下游具体目标识别任务提供高质量、可靠图像数据。
本发明第一方面公开了一种降质环境下基于频域增强的多光谱图像融合方法。所述方法包括:步骤S1、将可见光图像和红外图像作为待融合的多光谱图像,利用特征编码器分别提取所述可见光图像和所述红外图像的多尺度特征,从而得到由可见光图像多尺度特征和红外图像多尺度特征构成的原始特征图;步骤S2、分别基于高频信息注意力模块和低频信息注意力模块提取所述原始特征图中的高频信息注意力向量和低频信息注意力向量,通过将所述高频信息注意力向量和所述低频信息注意力向量进行级联得到所述原始特征图的注意力向量;步骤S3、将所述可见光图像多尺度特征和所述红外图像多尺度特征进行级联后与所述原始特征图的注意力向量相乘,得到多光谱融合特征,通过对所述多光谱融合特征进行多尺度上采样处理得到多光谱融合图像。
根据第一方面的方法,在所述步骤S1中,所述特征编码器为基于多头自注意力架构的视觉转换器,包含多个自注意力层和一个全连接层;其中:每个自注意力层通过线性映射计算提取所述可见光图像和所述红外图像在不同尺度上的特征作为输出,并级联所述每个自注意力层的输出特征,进一步经归一化处理和带有GRLu激活函数的全连接层处理,得到所述可见光图像多尺度特征和所述红外图像多尺度特征,以获取所述原始特征图。
根据第一方面的方法,在所述步骤S2中:所述高频信息注意力模块利用3*3的窗口提取所述原始特征图中的高频信息注意力向量,所述高频信息注意力向量表征所述原始特征图中的线条和形状信息;所述低频信息注意力模块利用二维离散余弦变换提取所述原始特征图中的低频信号,并基于标准注意力机制从所述低频信号中捕获所述低频信息注意力向量,所述低频信息注意力向量表征所述原始特征图中的纹理和颜色信息。
根据第一方面的方法,在所述步骤S3中,采用跨层密集连接结构来执行所述多尺度上采样处理,所述跨层密集连接结构包含若干基本解码单元,每个所述基本解码单元包括两个3*3卷积层。
本发明第二方面公开了一种降质环境下基于频域增强的多光谱图像融合***。所述***包括:第一处理单元,被配置为:将可见光图像和红外图像作为待融合的多光谱图像,利用特征编码器分别提取所述可见光图像和所述红外图像的多尺度特征,从而得到由可见光图像多尺度特征和红外图像多尺度特征构成的原始特征图;第二处理单元,被配置为:分别基于高频信息注意力模块和低频信息注意力模块提取所述原始特征图中的高频信息注意力向量和低频信息注意力向量,通过将所述高频信息注意力向量和所述低频信息注意力向量进行级联得到所述原始特征图的注意力向量;第三处理单元,被配置为:将所述可见光图像多尺度特征和所述红外图像多尺度特征进行级联后与所述原始特征图的注意力向量相乘,得到多光谱融合特征,通过对所述多光谱融合特征进行多尺度上采样处理得到多光谱融合图像。
根据第二方面的***,所述特征编码器为基于多头自注意力架构的视觉转换器,包含多个自注意力层和一个全连接层;其中:每个自注意力层通过线性映射计算提取所述可见光图像和所述红外图像在不同尺度上的特征作为输出,并级联所述每个自注意力层的输出特征,进一步经归一化处理和带有GRLu激活函数的全连接层处理,得到所述可见光图像多尺度特征和所述红外图像多尺度特征,以获取所述原始特征图。
根据第二方面的***,所述高频信息注意力模块利用3*3的窗口提取所述原始特征图中的高频信息注意力向量,所述高频信息注意力向量表征所述原始特征图中的线条和形状信息;所述低频信息注意力模块利用二维离散余弦变换提取所述原始特征图中的低频信号,并基于标准注意力机制从所述低频信号中捕获所述低频信息注意力向量,所述低频信息注意力向量表征所述原始特征图中的纹理和颜色信息。
根据第二方面的***,采用跨层密集连接结构来执行所述多尺度上采样处理,所述跨层密集连接结构包含若干基本解码单元,每个所述基本解码单元包括两个3*3卷积层。
本发明第三方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本公开第一方面所述的一种降质环境下基于频域增强的多光谱图像融合方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本公开第一方面所述的一种降质环境下基于频域增强的多光谱图像融合方法中的步骤。
综上,本发明提供的技术方案利用最先进的深度学习模型Vision Transformer(ViT)模型作为骨干网络提取多尺度多光谱特征,并设计高频和低频模块提取光谱中频率信息,再通过嵌套连接架构充分利用深层特征,并保留了来自编码器网络提取的不同尺度特征的更多信息。最终实现高精度、鲁棒多光谱图像融合。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种降质环境下基于频域增强的多光谱图像融合方法的流程示意图;
图2为根据本发明实施例的采用UNet++网络的嵌套结构执行多尺度上采样处理的流程示意图;
图3为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种降质环境下基于频域增强的多光谱图像融合方案。本发明使用ViT骨干网络作为特征编码器提取多尺度多光谱特征,并设计高频和低频模块提取提升ViT模型中自注意力结构,捕获多光谱图像中频率信息。再通过嵌套连接架构充分利用深层特征,并进一步融合来自编码器网络提取的不同尺度信息,通过逐层上采样输出高分辨融合图像。最终实现在降质环境下充分利用多光谱图像互补信息,有效抑制背景杂波,显著增强目标特征,为下游目标检测、跟踪和分割等具体任务提供高质量、可靠的图像数据。
本发明第一方面公开了一种降质环境下基于频域增强的多光谱图像融合方法。图1为根据本发明实施例的一种降质环境下基于频域增强的多光谱图像融合方法的流程示意图;结合图1所示,所述方法包括:步骤S1、将可见光图像和红外图像作为待融合的多光谱图像,利用特征编码器分别提取所述可见光图像和所述红外图像的多尺度特征,从而得到由可见光图像多尺度特征和红外图像多尺度特征构成的原始特征图;步骤S2、分别基于高频信息注意力模块和低频信息注意力模块提取所述原始特征图中的高频信息注意力向量和低频信息注意力向量,通过将所述高频信息注意力向量和所述低频信息注意力向量进行级联得到所述原始特征图的注意力向量;步骤S3、将所述可见光图像多尺度特征和所述红外图像多尺度特征进行级联后与所述原始特征图的注意力向量相乘,得到多光谱融合特征,通过对所述多光谱融合特征进行多尺度上采样处理得到多光谱融合图像。
具体地,本方法通过增强频域特征,有效结合图像的高频局部细节信息和低频全局结构信息,实现多光谱图像的高质量、鲁棒融合的技术。具体而言,在降质环境下,图像的背景杂波大,目标有效信息被干扰和削弱,为了有效利用多光谱图像特征,本发明首先使用ViT骨干网络作为特征编码器提取多尺度多光谱特征,并设计高频和低频模块提取提升ViT模型中自注意力结构,提取多光谱图像中频率信息。再通过嵌套连接架构充分利用深层特征,并进一步融合来自编码器网络提取的不同尺度信息,通过逐层上采样输出高分辨融合图像。最终实现在降质环境下有效抑制背景杂波,显著增强目标特征,为目标检测、跟踪和分割等下游具体目标感知任务提供高质量、可靠的目标图像数据。
在一些实施例中,在所述步骤S1中,所述特征编码器为基于多头自注意力架构的视觉转换器,包含多个自注意力层和一个全连接层;其中:每个自注意力层通过线性映射计算提取所述可见光图像和所述红外图像在不同尺度上的特征作为输出,并级联所述每个自注意力层的输出特征,进一步经归一化处理和带有GRLu激活函数的全连接层处理,得到所述可见光图像多尺度特征和所述红外图像多尺度特征,以获取所述原始特征图。
具体地,Transformer架构最初是为序列到序列的学习而提出的,例如机器翻译。凭借高效性,Transformer随后成为各种自然语言处理任务的首选模型。在计算机视觉领域,使用自注意力(Self-Attention,SA)代替卷积,视觉转换器(Vision Transformer,ViT)从图像中提取补丁并将它们输入到转换器编码器中以获得全局表示,最终将进行转换以进行分类。基于Transformer架构的模型表现出比CNN更好的可扩展性,即在更大的数据集上训练更大的模型时,ViT的性能明显优于ResNet模型。Transformers的模型逐渐成为计算机视觉领域的强大骨干网络。
Transformers是建立在多头自注意力(multi-head SA,MSA)的基础上的,它可以捕获不同位置的token(图像块)之间的长期关系。具体来说,让X∈RC×H×W→RN×D是标准MSA层的输入序列,其中N是输入序列的长度,D是指隐藏维数。每个self-attention head使用X的线性变换计算查询Q、键K和值V矩阵:
Q=XWq,
K=XWk,
V=XWv.
其中,Wq、Wk和Wv的维度都是且都是是可学习参数。Dh是头部的隐藏尺寸数。然后,SA的输出是N个值向量的加权和,
对于N头的MSA层,最终输出是通过每个SA的级联输出的线性映射计算得到,其公式如下
MSA(X)=concat[Attention(X)]Wo
其中是一个可学习参数。因此,构建Transformer块包含一个MSA层和一个全连接层,可以表示为:
其中,LN表示层归一化(LayerNorm)操作。FC表示带有GRLu激活函数的全连接层。
ViT的工作建议将块划分为4个阶段,以生成用于密集预测任务的金字塔特征图。对于多光谱输入R和T,经过ViT多尺度特征提取器获得多尺度特征和定义为:
在一些实施例中,在所述步骤S2中:所述高频信息注意力模块利用3*3的窗口提取所述原始特征图中的高频信息注意力向量,所述高频信息注意力向量表征所述原始特征图中的线条和形状信息;所述低频信息注意力模块利用二维离散余弦变换提取所述原始特征图中的低频信号,并基于标准注意力机制从所述低频信号中捕获所述低频信息注意力向量,所述低频信息注意力向量表征所述原始特征图中的纹理和颜色信息。
具体地,二维离散余弦变换(Discrete Cosine Transform,DCT):
其中,h∈{1,2,3,...,H},w∈{1,2,3,...,W},F∈RH×W为二维DCT频谱。x∈RH×W是输入特征,H和W分别表示x的高和宽。
具体地,逆DCT变换:
其中,i∈{1,2,3,...,H},j∈{1,2,3,...,W}
具体地,特征通道注意机制在CNN中得到了广泛的应用。它使用标量来表示和评估每个通道的重要性。假设X∈RC×H×W是网络中的图像特征张量,C是通道数,H是特征高度,W是特征宽度。本发明将通道注意力中的标量表示视为一个压缩问题,因为它必须表示整个通道,而只能使用一个标量。这样,注意力机制可以写成:
Att=σ(f1(f2(X)))
其中,其中Att是通道注意力向量,σ是sigmoid函数,f1表示映射函数,可以选择全连接层或一维卷积操作。f2表示压缩操作,实现RC×H×W→RC。在获得所有C通道的注意向量attention后,输入X的每个通道特征图按相应的注意值进行缩放:
其中是注意机制的输出,Atti是注意向量的第i个元素,Xi,:,:是输入特征的第i个通道。通常,全局平均池(Global Average Pooling,GAP)由于其简单有效而成为常用的通道压缩方法。此外,还有一些压缩方法,如全局最大池(Global Max Pooling,GMP)和全局标准偏差池(Global Standard Deviation Pooling,GSDP)也可以实现通道压缩。
可知,在通道注意机制中使用GAP意味着只保留最低频率信息。来自其他频率的有效成分都会被丢弃,而其他频率成分中也包含对通道学习有用的信息。因此,为了更好地压缩通道并引入更多信息,本发明将GAP推广到更高的频率,将GAP推广到2D DCT的更多频率分量。
自然图像包含丰富的频率,其中高频捕获物体的局部细节(例如线条和形状),低频编码全局结构(例如纹理和颜色)。然而,典型MSA层中的全局SA没有考虑不同潜在频率的特征。为此,本发明在注意力层分别处理特征图中的高频和低频信息。具体而言,高频注意力关注对象的局部细节,因此不需要在特征图上应用全局注意力,这样可以有效降低计算复杂度,提高运行效率。高频信息注意力模块(High-Frequency Information AttentionModule,HIAM)采用3*3窗口来捕获具有局部窗口自注意力的细粒度高频信息,可以节省大量计算资源。MSA中的全局注意力有助于捕获低频信息。然而,直接将MSA应用于高分辨率特征图需要巨大的计算成本。低频信息注意力模块(Low-Frequency Information AttentionModule,LIAM)首先对每个窗口应用二维DCT获得输入X中的低频信号。然后,将DCT的特征图映射到键K和值V。LIAM中的查询向量Q仍然来自原始特征图X。然后本发明应用标准注意力机制来捕获特征图中丰富的低频信息。
Q=DCT(X)Wq,
K=DCT(X)Wk,
V=XWv.
得到最终的高频和低频信息注意力向量:
HLA(X)=concat(HIAM(X),LIAM(X))
其中,cancat()表示级联操作,将高频信息注意力向量和低频信息注意力向量进行级联。
将ViT提取的多尺度特征输入HIAM和LIAM模块,可以得到包含高频和低频注意力向量。将可见光多尺度特征和红外多尺度特征与注意力向量相乘得到增强之后的多光谱融合特征
yi=HLA(xi)*xi
在一些实施例中,在所述步骤S3中,采用跨层密集连接结构来执行所述多尺度上采样处理,所述跨层密集连接结构包含若干基本解码单元,每个所述基本解码单元包括两个3*3卷积层。在一些替代/可选实施例中,采用UNet++网络的嵌套结构来执行所述多尺度上采样处理,所述UNet++网络的嵌套结构包含若干基本解码单元,每个所述基本解码单元包括两个3*3卷积层。
具体地,如图2所示,采用UNet++网络的嵌套结构充分保留多尺度信息。具体而言,首先我们后见基本解码单元(Decoder Unit,DU),DU主要由两个3*3卷积层组成,定义为:
v=ReLU(Conv3×3(u))
w=ReLU(Conv3×3(v))
其中输入特征为第一层输出为v∈R32×H×W,DU的输出首先,将两个输入图像分别输入编码器网络,以获得多尺度深度特征。对于每个尺度特征,我们的融合策略用于融合结果特征。最后,基于嵌套连接的解码器网络用于使用融合的多尺度深度特征重建融合图像,得到最终的多光谱融合图像。
本发明第二方面公开了一种降质环境下基于频域增强的多光谱图像融合***。所述***包括:第一处理单元,被配置为:将可见光图像和红外图像作为待融合的多光谱图像,利用特征编码器分别提取所述可见光图像和所述红外图像的多尺度特征,从而得到由可见光图像多尺度特征和红外图像多尺度特征构成的原始特征图;第二处理单元,被配置为:分别基于高频信息注意力模块和低频信息注意力模块提取所述原始特征图中的高频信息注意力向量和低频信息注意力向量,通过将所述高频信息注意力向量和所述低频信息注意力向量进行级联得到所述原始特征图的注意力向量;第三处理单元,被配置为:将所述可见光图像多尺度特征和所述红外图像多尺度特征进行级联后与所述原始特征图的注意力向量相乘,得到多光谱融合特征,通过对所述多光谱融合特征进行多尺度上采样处理得到多光谱融合图像。
根据第二方面的***,所述特征编码器为基于多头自注意力架构的视觉转换器,包含多个自注意力层和一个全连接层;其中:每个自注意力层通过线性映射计算提取所述可见光图像和所述红外图像在不同尺度上的特征作为输出,并级联所述每个自注意力层的输出特征,进一步经归一化处理和带有GRLu激活函数的全连接层处理,得到所述可见光图像多尺度特征和所述红外图像多尺度特征,以获取所述原始特征图。
根据第二方面的***,所述高频信息注意力模块利用3*3的窗口提取所述原始特征图中的高频信息注意力向量,所述高频信息注意力向量表征所述原始特征图中的线条和形状信息;所述低频信息注意力模块利用二维离散余弦变换提取所述原始特征图中的低频信号,并基于标准注意力机制从所述低频信号中捕获所述低频信息注意力向量,所述低频信息注意力向量表征所述原始特征图中的纹理和颜色信息。
根据第二方面的***,采用跨层密集连接结构来执行所述多尺度上采样处理,所述跨层密集连接结构包含若干基本解码单元,每个所述基本解码单元包括两个3*3卷积层。
本发明第三方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本公开第一方面所述的一种降质环境下基于频域增强的多光谱图像融合方法中的步骤。
图3为根据本发明实施例的一种电子设备的结构图,如图3所示,电子设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本公开第一方面所述的一种降质环境下基于频域增强的多光谱图像融合方法中的步骤。
综上,本发明提供的技术方案利用最先进的深度学习模型Vision Transformer(ViT)模型作为骨干网络提取多尺度多光谱特征,并设计高频和低频模块提取光谱中频率信息,再通过嵌套连接架构充分利用深层特征,并保留了来自编码器网络提取的不同尺度特征的更多信息。最终实现高精度、鲁棒多光谱图像融合。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种降质环境下基于频域增强的多光谱图像融合方法,其特征在于,所述方法包括:
步骤S1、将可见光图像和红外图像作为待融合的多光谱图像,利用特征编码器分别提取所述可见光图像和所述红外图像的多尺度特征,从而得到由可见光图像多尺度特征和红外图像多尺度特征构成的原始特征图;
步骤S2、分别基于高频信息注意力模块和低频信息注意力模块提取所述原始特征图中的高频信息注意力向量和低频信息注意力向量,通过将所述高频信息注意力向量和所述低频信息注意力向量进行级联得到所述原始特征图的注意力向量;
步骤S3、将所述可见光图像多尺度特征和所述红外图像多尺度特征进行级联后与所述原始特征图的注意力向量相乘,得到多光谱融合特征,通过对所述多光谱融合特征进行多尺度上采样处理得到多光谱融合图像。
2.根据权利要求1所述的一种降质环境下基于频域增强的多光谱图像融合方法,其特征在于,在所述步骤S1中,所述特征编码器为基于多头自注意力架构的视觉转换器,包含多个自注意力层和一个全连接层;其中:
每个自注意力层通过线性映射计算提取所述可见光图像和所述红外图像在不同尺度上的特征作为输出,并级联所述每个自注意力层的输出特征,进一步经归一化处理和带有GRLu激活函数的全连接层处理,得到所述可见光图像多尺度特征和所述红外图像多尺度特征,以获取所述原始特征图。
3.根据权利要求2所述的一种降质环境下基于频域增强的多光谱图像融合方法,其特征在于,在所述步骤S2中:
所述高频信息注意力模块利用3*3的窗口提取所述原始特征图中的高频信息注意力向量,所述高频信息注意力向量表征所述原始特征图中的线条和形状信息;
所述低频信息注意力模块利用二维离散余弦变换提取所述原始特征图中的低频信号,并基于标准注意力机制从所述低频信号中捕获所述低频信息注意力向量,所述低频信息注意力向量表征所述原始特征图中的纹理和颜色信息。
4.根据权利要求3所述的一种降质环境下基于频域增强的多光谱图像融合方法,其特征在于,在所述步骤S3中,采用跨层密集连接结构来执行所述多尺度上采样处理,所述跨层密集连接结构包含若干基本解码单元,每个所述基本解码单元包括两个3*3卷积层。
5.一种降质环境下基于频域增强的多光谱图像融合***,其特征在于,所述***包括:
第一处理单元,被配置为:将可见光图像和红外图像作为待融合的多光谱图像,利用特征编码器分别提取所述可见光图像和所述红外图像的多尺度特征,从而得到由可见光图像多尺度特征和红外图像多尺度特征构成的原始特征图;
第二处理单元,被配置为:分别基于高频信息注意力模块和低频信息注意力模块提取所述原始特征图中的高频信息注意力向量和低频信息注意力向量,通过将所述高频信息注意力向量和所述低频信息注意力向量进行级联得到所述原始特征图的注意力向量;
第三处理单元,被配置为:将所述可见光图像多尺度特征和所述红外图像多尺度特征进行级联后与所述原始特征图的注意力向量相乘,得到多光谱融合特征,通过对所述多光谱融合特征进行多尺度上采样处理得到多光谱融合图像。
6.根据权利要求5所述的一种降质环境下基于频域增强的多光谱图像融合***,其特征在于,所述特征编码器为基于多头自注意力架构的视觉转换器,包含多个自注意力层和一个全连接层;其中:
每个自注意力层通过线性映射计算提取所述可见光图像和所述红外图像在不同尺度上的特征作为输出,并级联所述每个自注意力层的输出特征,进一步经归一化处理和带有GRLu激活函数的全连接层处理,得到所述可见光图像多尺度特征和所述红外图像多尺度特征,以获取所述原始特征图。
7.根据权利要求6所述的一种降质环境下基于频域增强的多光谱图像融合***,其特征在于,其中:
所述高频信息注意力模块利用3*3的窗口提取所述原始特征图中的高频信息注意力向量,所述高频信息注意力向量表征所述原始特征图中的线条和形状信息;
所述低频信息注意力模块利用二维离散余弦变换提取所述原始特征图中的低频信号,并基于标准注意力机制从所述低频信号中捕获所述低频信息注意力向量,所述低频信息注意力向量表征所述原始特征图中的纹理和颜色信息。
8.根据权利要求7所述的一种降质环境下基于频域增强的多光谱图像融合***,其特征在于,采用跨层密集连接结构来执行所述多尺度上采样处理,所述跨层密集连接结构包含若干基本解码单元,每个所述基本解码单元包括两个3*3卷积层。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-4任一项所述的一种降质环境下基于频域增强的多光谱图像融合方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-4任一项所述的一种降质环境下基于频域增强的多光谱图像融合方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310311387.1A CN116452930A (zh) | 2023-03-28 | 2023-03-28 | 降质环境下基于频域增强的多光谱图像融合方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310311387.1A CN116452930A (zh) | 2023-03-28 | 2023-03-28 | 降质环境下基于频域增强的多光谱图像融合方法与*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452930A true CN116452930A (zh) | 2023-07-18 |
Family
ID=87119415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310311387.1A Pending CN116452930A (zh) | 2023-03-28 | 2023-03-28 | 降质环境下基于频域增强的多光谱图像融合方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452930A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314757A (zh) * | 2023-11-30 | 2023-12-29 | 湖南大学 | 一种空谱频多域融合的高光谱计算成像方法、***及介质 |
CN117893871A (zh) * | 2024-03-14 | 2024-04-16 | 深圳市日多实业发展有限公司 | 频谱段融合方法、装置、设备及存储介质 |
-
2023
- 2023-03-28 CN CN202310311387.1A patent/CN116452930A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314757A (zh) * | 2023-11-30 | 2023-12-29 | 湖南大学 | 一种空谱频多域融合的高光谱计算成像方法、***及介质 |
CN117314757B (zh) * | 2023-11-30 | 2024-02-09 | 湖南大学 | 一种空谱频多域融合的高光谱计算成像方法、***及介质 |
CN117893871A (zh) * | 2024-03-14 | 2024-04-16 | 深圳市日多实业发展有限公司 | 频谱段融合方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Infrared and visible image fusion methods and applications: A survey | |
Jiao et al. | A survey on the new generation of deep learning in image processing | |
Xia et al. | A novel improved deep convolutional neural network model for medical image fusion | |
Chen et al. | The improved image inpainting algorithm via encoder and similarity constraint | |
Li et al. | Survey of single image super‐resolution reconstruction | |
Wang et al. | Ultra-dense GAN for satellite imagery super-resolution | |
Ozcelik et al. | Rethinking CNN-based pansharpening: Guided colorization of panchromatic images via GANs | |
Shi et al. | Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network | |
Saragadam et al. | Miner: Multiscale implicit neural representation | |
Zhao et al. | Invertible image decolorization | |
CN116452930A (zh) | 降质环境下基于频域增强的多光谱图像融合方法与*** | |
Zhu et al. | Stacked U-shape networks with channel-wise attention for image super-resolution | |
CN111951195A (zh) | 图像增强方法及装置 | |
Lyu et al. | A nonsubsampled countourlet transform based CNN for real image denoising | |
Liu et al. | Single image super resolution techniques based on deep learning: Status, applications and future directions | |
Khan et al. | An encoder–decoder deep learning framework for building footprints extraction from aerial imagery | |
Liu et al. | Research on super-resolution reconstruction of remote sensing images: A comprehensive review | |
Shao et al. | Uncertainty-guided hierarchical frequency domain transformer for image restoration | |
Gao | A method for face image inpainting based on generative adversarial networks | |
Wang et al. | Multi-focus image fusion framework based on transformer and feedback mechanism | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
CN112446835A (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
Dharejo et al. | SwinWave-SR: Multi-scale lightweight underwater image super-resolution | |
Liu et al. | Multi-level wavelet network based on CNN-Transformer hybrid attention for single image deraining | |
Zhang et al. | Enhanced visual perception for underwater images based on multistage generative adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |