CN116703752A - 融合近红外的Transformer结构的图像去雾方法及装置 - Google Patents

融合近红外的Transformer结构的图像去雾方法及装置 Download PDF

Info

Publication number
CN116703752A
CN116703752A CN202310524524.XA CN202310524524A CN116703752A CN 116703752 A CN116703752 A CN 116703752A CN 202310524524 A CN202310524524 A CN 202310524524A CN 116703752 A CN116703752 A CN 116703752A
Authority
CN
China
Prior art keywords
image
visible light
feature
near infrared
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310524524.XA
Other languages
English (en)
Inventor
张佳
艾欣
白永强
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310524524.XA priority Critical patent/CN116703752A/zh
Publication of CN116703752A publication Critical patent/CN116703752A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了融合近红外的Transformer结构的图像去雾方法及装置,能够利用额外的近红外特征作为补充信息,采用Transformer深度神经网络结构,其特征提取能力更强,能够生成分辨率高,保真度高和纹理细节突出的去雾图片。针对同一场景对应拍摄近红外图像和可见光图像,组成数据集。将近红外图像和可见光图像输入到预先训练好的Transformer结构图像去雾模型;该模型对可见光、近红外图像进行编码表征,分别得到可见光和近红外图像的特征向量,二者融合得到交互特征向量;对可见光和近红外图像的特征向量分别进行解码,获得可见光和近红外图像序列,二者处理后与交互特征向量进行合并,对合并结果进行通道重组以及卷积处理,输出去雾后的图像结果。

Description

融合近红外的Transformer结构的图像去雾方法及装置
技术领域
本发明涉及属于数字图像处理技术领域,具体涉及一种融合近红外的Transformer结构的图像去雾方法及装置,适用于计算机视觉应用的前期预处理,可广泛应用于交通目标检测、道路监控等领域。
背景技术
雾霾天气的能见度较低,拍摄得到的图像和视频常常出现降质的现象。为改善图像的质量、提高图像的清晰度,需要对图像进行去雾处理。
单幅图像去雾旨在由一幅模糊图像生成一幅无雾图像。它是一个经典的图像处理问题,近十年来一直是视觉领域的重要研究课题。去雾算法可以分两类:传统去雾方法和基于深度学习的方法。传统方法主要分为图像增强和图像复原两类。图像增强的方法突出图像细节,提升对比度,适用范围较广,可以有效提高雾天图像的对比度。基于图像复原的去雾算法是研究雾天图像降质的物理过程,对大量有雾图像和无雾图像观察总结,反演退化过程,从而得到清晰图像的估计值。
传统算法对于一定场景下的雾图复原有良好的效果但适用范围较窄,在还原图像的细节方面不够精细,而且计算复杂,无法满足如今许多地方需要的实时处理的要求。基于深度学习的方法有两种,一种是利用物理模型或者手工特征结合神经网络,另一种是不包含物理模型的端到端方法。这些技术需要含雾图像及其对应的真实清晰图像的映射来训练模型。其中传统的卷积神经网络算法依旧存在着泛化能力差,也不能对噪声和失真进行修正。
随着注意力机制的蓬勃发展,自注意力机制Transformer结构在视觉领域如图像处理、目标检测等取得了较好的成果。如何利用自注意力机制Transformer结构对图像进行去雾处理,从而以得到分辨率高、保真度高且纹理细节丰富的去雾图像,是现有技术尚未解决的问题。
发明内容
有鉴于此,本发明提供了融合近红外的Transformer结构的图像去雾方法及装置,能够利用额外的近红外特征作为补充信息,同时采用Transformer深度神经网络结构,比传统的卷积神经网络特征提取能力更强,生成分辨率高,保真度高和纹理细节突出的去雾图片。
实现本发明的技术方案如下:融合近红外的Transformer结构的图像去雾方法,其特征在于,包括如下步骤:
S1:针对同一场景对应拍摄近红外图像和可见光图像,组成数据集。
S2:将近红外图像和可见光图像均输入到预先训练好的Transformer结构图像去雾模型;Transformer结构图像去雾模型首先对可见光图像以及近红外图像进行编码表征,分别得到可见光图像的特征向量和近红外图像的特征向量,二者融合后得到交互特征向量;然后对可见光图像的特征向量和近红外图像的特征向量分别进行解码,获得可见光图像序列和近红外图像序列,二者处理后与交互特征向量进行合并,再将该合并结果进行通道重组以及卷积处理,输出去雾后的图像结果。
进一步地,Transformer结构图像去雾模型包括可见光图像特征编码模块,近红外图像特征编码模块,特征交互模块,可见光特征解码模块,近红外特征解码模块以及特征融合模块。
各模块所执行流程如下:
可见光图像特征编码模块,对可见光图像进行表征,按RGB通道得到三组可见光图像的特征向量,可见光图像特征编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接三个Transformer编码单元。
近红外特征编码模块,对近红外图像进行表征,得到一组近红外图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接两个Transformer编码单元。
特征交互模块,可见光图像的特征向量和近红外图像的特征向量通过特征图相加方式再经过反卷积层和ReLU激活层得到交互特征向量。
可见光特征解码模块,将三组可见光图像特征向量转化为一个可见光图像序列,可见光特征解码模块包含三个Transformer编码单元和一个上采样卷积层。
近红外特征解码模块,将一组近红外图像特征向量转化为一个近红外图像序列,近红外特征解码模块包含两个Transformer编码单元和一个上采样卷积层。
特征融合模块,将可见光序列进行全局平均池化再进行3*3的卷积,将近红外图像序列进行两次1*1的卷积,两步操作的结果与交互特征向量通过特征图相加方式进行合并,再将该合并结果进行通道重组,最后进行5*5的深度可分离卷积和尺寸调整卷积得到去雾后清晰彩色图像结果。
进一步地,输出去雾后的图像结果之后,还包括对去雾后的图像结果采用图像鉴别器进行校准;图像鉴别器采用了两个包含卷积层-归一化层-ReLU激活层-池化层的块结构,然后通过通道注意力混合空间注意力的方式去校验图像的深层信息,最后通过Softmax函数判断图像的真假概率。
进一步地,预先训练好的Transformer结构图像去雾模型,采用如下方式进行预先训练:
使用三种损失约束Transformer结构图像去雾模型的训练,第一种损失为Charbonnier损失;
第二种损失为感知损失,使用预训练的VGG16网络在第14层输出的特征图计算损失;
第三种损失为图像鉴别器所得真假概率损失。
本发明另外一个实施例还提供了融合近红外的Transformer结构的图像去雾装置,装置包括数据采集模块和Transformer结构图像去雾模型模块。
数据采集模块,用于针对同一场景对应拍摄采集可见光图像和近红外图像。
Transformer结构图像去雾模型模块,以可见光图像和近红外图像,Transformer结构图像去雾模型首先对可见光图像以及近红外图像进行编码表征,分别得到可见光图像的特征向量和近红外图像的特征向量,二者融合后得到交互特征向量;然后对可见光图像的特征向量和近红外图像的特征向量分别进行解码,获得可见光图像序列和近红外图像序列,二者处理后与交互特征向量进行合并,再将该合并结果进行通道重组以及卷积处理,输出去雾后的图像结果。
优选地,Transformer结构图像去雾模型包括可见光图像特征编码模块,近红外图像特征编码模块,特征交互模块,可见光特征解码模块,近红外特征解码模块,特征融合模块。
可见光图像特征编码模块,对可见光图像进行表征,按RGB通道得到三组可见光图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接三个Transformer编码单元。
近红外特征编码模块,对近红外图像进行表征,得到一组近红外图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接两个Transformer编码单元。
特征交互模块,可见光图像的特征向量和近红外图像的特征向量通过特征图相加方式再经过反卷积层和ReLU激活层得到交互特征向量。
可见光特征解码模块,将三组可见光图像特征向量转化为一个可见光图像序列,该解码模块包含三个Transformer编码单元和一个上采样卷积层。
近红外特征解码模块,将一组近红外图像特征向量转化为一个近红外图像序列,该解码模块包含两个Transformer编码单元和一个上采样卷积层。
特征融合模块,将可见光序列进行全局平均池化再进行3*3的卷积,将近红外图像序列进行两次1*1的卷积,两步操作的结果与交互特征向量通过特征图相加方式进行合并,再将该合并结果进行通道重组,最后进行5*5的深度可分离卷积和尺寸调整卷积得到去雾后清晰彩色图像结果。
有益效果:
1、本发明提供的融合近红外的Transformer结构的图像去雾方法,采用Transformer结构图像去雾模型进行去雾,Transformer结构解决了传统卷积局部感受野小,深层次丢失细节。使用近红外图像,能够补充可见光图像的纹理信息。相比于传统的单幅图像去雾所提出的方法,同时解决了近红外和可见光图像融合和可见光的图像去雾问题。
2、本发明在对Transformer结构图像去雾模型进行训练时所提出的训练策略相较于传统的损失,能够保证梯度不消失并且生成出来的图像更加逼真,所提出的方法在数据集上得到了更优的评价。
附图说明
图1是本发明实施例提供的融合近红外的Transformer结构的图像去雾方法流程示意图;
图2是本发明实施例提供的Transformer结构图像去雾模型组成框图;
图3为本发明实施例提供的图像鉴别器组成框图;
图4是本发明实施例提供的Transformer结构图像去雾模型中的编码单元模块图;
图5是本发明实施例提供的一种使用电子设备的流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
实施例1:
本实施例提供了一种融合近红外的Transformer结构的图像去雾方法,本发明使用近红外图像来补充可见光图像的纹理信息,其中可见光图像具有颜色丰富、真实性强等特点,而近红外图像虽然分辨率低,但是透过力强,可被机器视觉处理的更快。近红外成像技术具有较强的抗干扰能力,能够提供丰富的目标信息和背景信息。因此近红外图像与可见光图像融合的目标不仅要保留丰富的可见光图像细节信息,还要提高目标与背景的对比度,以利于人眼视觉和图像处理。该方法如图1所示,具体地由如下步骤实现:
S1、针对同一场景对应拍摄近红外图像和可见光图像,组成数据集。
将红外图像和可见光图像对应输入到构建好的Transformer结构图像去雾模型。
S2、根据成对的近红外图片数据及Transformer结构图像去雾模型得到去雾后清晰彩色图片结果。本发明实施例中,Transformer结构图像去雾模型包括可见光图像特征编码模块,近红外图像特征编码模块,特征交互模块,可见光特征解码模块,近红外特征解码模块,特征融合模块;其组成如图2所示。
步骤2可以包括如下步骤S21-S26;
S21、通过可见光图像特征编码模块,对可见光图像进行表征,按三个不同通道得到三组可见光图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接三个Transformer编码单元;Transformer编码单元结构如图3所示。
其中,对可见光图像进行表征,按三个不同通道得到三组可见光图像的特征向量,包括:
S211.1使用Python图像处理库分离可见光图片的三个颜色通道,得到R、G、B矩阵;
S211.2分别将R、G、B矩阵送入Transformer编码单元。以一组矩阵为例,该矩阵首先经过反射扩充得到矩阵X,其次先经过两个线性连接层去分别计算矩阵的查询向量Q、关键向量K和值向量V。根据固定参数的划分,Q和K可以划分出多组Qi和Ki,Qi和Ki的转置经过相乘和归一化后与Vi相乘,输出Zi的公式如下式所示:
其中,dk表示的是Qi,Ki的向量维度,softmax为归一化指数函数。
进一步地,输出Zi会拼接在一起,形成矩阵Z,为多头注意力输出,并且拼接上经过卷积层后的矩阵X’,再经过一个线性连接层和一个多层感知机构成的残差结构,最终输出Y,为不同通道矩阵的经过Transformer编码单元后结果。
三个R、G、B矩阵最终得到的输出向量YR、YG、YB是三个融合了自注意力机制的图像特征向量,代表不同通道上值得传递的信息内容,送入后续的解码模块。
S22、通过近红外特征编码模块,对近红外图像进行表征,得到一组近红外图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接两个Transformer编码单元,该编码单元与S311.2相同,得到输出YNIR,为近红外通道特征矩阵经过Transformer编码单元后结果。
S23、通过特征交互模块,为了在特征层面上将两种图像的特征进行深度融合,利用其互补性,可见光图像的编码输出向量YR、YG、YB和近红外图像的编码输出向量YNIR通过特征图相加方式再经过反卷积层和ReLU激活层得到交互特征向量。具体的表达式如下所示:
o=ReLU(Deconv(YR+YG+YB+YNIR))
其中Deconv表示的是反卷积操作,ReLU表示的是数值激活。得到的向量o表示融合了编码阶段的可见光和近红外特征向量,该向量将会送入后续特征融合模块来补充各阶段所得的特征关系。
S24、通过可见光特征解码模块,将三组可见光图像编码输出向量YR、YG、YB转化为一个可见光图像序列MRGB,该解码模块包含三个Transformer编码单元和一个上采样卷积层,本发明的解码器中Transformer单元和编码器中Transformer单元设计相同,这两者使用相同的注意力头数量和编码器设置。解码器的输出与原始输入的图像维度一致。在训练过程中,使用Charbonnier函数作为损失函数,通过计算解码器输出和编码器输入之间的损失来更新网络权重。在模型收敛后,可见光特征解码器的输出将被存储为MRGB
S25、通过近红外特征解码模块,将一组近红外图像特征向量转化为一个近红外图像序列MNIR,该解码模块包含两个Transformer编码单元和一个上采样卷积层,该编码单元与S34中相同,近红外特征解码的输出将被存储为MNIR
S26、通过特征融合模块,将可见光序列MRGB进行全局平均池化再进行3*3的卷积,将近红外图像序列MNIR进行两次1*1的卷积,两步操作的结果与交互特征向量o通过特征图相加方式进行合并,再将该合并结果进行通道重组,最后进行5*5的深度可分离卷积和尺寸调整卷积得到去雾后清晰彩色图像结果,其表达式为:
Middle1=Conv3*3GAP(MRGB)+Conv1*1(Conv1*1(MNIR))+o
Middle2=ChannelShuffle(Middle1)
O=ResizeConv(depthConv5*5(Middle2))
其中GAP表示全局平均池化,ChannelShuffle表示通道重组策略,能够全面捕获到向量的信息,ResizeConv表示尺寸调整卷积,消除生成图像中出现的棋盘格效应,最终输出图像O。
S3,生成去雾后清晰彩色图像结果O需经过图像鉴别器的校准,该图像鉴别器采用了两个包含卷积层-归一化层-ReLU激活层-池化层的块结构,然后通过通道注意力混合空间注意力的方式去校验图像的深层信息,最后通过softmax函数判断图像的真假概率。图像鉴别器组成如图4所示。
本发明实施例中,还包括使用三种损失约束Transformer结构图像去雾模型的训练过程,第一种损失为Charbonnier损失,具体公式为:其中y表示网络估计得到的清晰图像,y'表示真实的清晰图像,ε表示常数,保证Lc不为零和训练意外终止的情况;
第二种损失为感知损失,使用预训练的VGG16网络在第14层输出的特征图计算损失,具体公式为:Lper=||φ(y)-φ(y')||,其中φ(z)表示VGG16网络第14层的特征图;
第三种损失为图像鉴别器所得真假概率损失,具体公式为其中N代表图像个数,D指代图像鉴别器,G指代Transformer结构图像去雾模型。
本发明实施例中,训练样本为采集到的280组参考RGB图像、有雾RGB图像以及近红外图像,三类图像均采用A7C拍摄,参考RGB图像和有雾RGB图像采用B+W486(RGB)滤镜拍摄,近红外图像采用093(近红外)滤镜拍摄。三种图像均为定点拍摄,即有雾RGB图像和近红外图像在雾天固定地点进行拍摄,参考RGB图像在晴天固定地点拍摄,后期并通过相似变换对三次拍摄的图像配准。对于每组样本,有雾RGB图像和近红外图像作为输入,参考RGB图像作为标签。由于数据量较少,同时采用数据增强技术来扩充数据集,如仿射变换,水平翻转等。将数据集扩充至400组。
训练实验中在数据集里划分了320组作为训练集,剩余80组为测试集。采用PyTorch 1.10框架。优化器选择Adam,学习率设置为0.0001,批数据量设置为4;迭代轮数为400。将有雾RGB图像与近红外图像输入Transformer结构,计算后得到输出去雾RGB图像,将去雾RGB图像与对应同组参考RGB图像对比,计算Charbonnier损失、感知损失与真假概率损失。损失函数对各参数求导获得梯度,采用梯度下降法更新Transformer结构中的网络参数,再次输入有雾图像与近红外图迭代,直到损失函数收敛及迭代轮数为零结束训练。
本发明所提出的训练策略相较于传统的损失,能够保证梯度不消失,并且生成出来的图像更加逼真,所提出的方法在数据集上得到了更优的评价。
实施例2:
本实施例所提出的一种融合近红外的Transformer结构的图像去雾装置,如图4所示,该装置包括数据采集模块和Transformer结构图像去雾模型模块。
数据采集模块,用于针对同一场景对应拍摄采集可见光图像和近红外图像;
Transformer结构图像去雾模型模块,以所述可见光图像和近红外图像,所述Transformer结构图像去雾模型首先对可见光图像以及近红外图像进行编码表征,分别得到可见光图像的特征向量和近红外图像的特征向量,二者融合后得到交互特征向量;然后对可见光图像的特征向量和近红外图像的特征向量分别进行解码,获得可见光图像序列和近红外图像序列,二者处理后与所述交互特征向量进行合并,再将该合并结果进行通道重组以及卷积处理,输出去雾后的图像结果。
本发明实施例中,在上述两个模块之间还可以增加数据处理模块和数据划分模块。
其中数据处理模块,用于近红外图像数据集进行数据增广,扩大数据集数量;用于近红外数据集进行数据增强,将反差小的区域进行色阶调整;
数据划分模块,用于根据公开数据集和近红外数据集进行划分操作,获得训练集,该训练集可以用于对Transformer结构图像去雾模型进行训练。
本发明实施例中,Transformer结构图像去雾模型包括可见光图像特征编码模块,近红外图像特征编码模块,特征交互模块,可见光特征解码模块,近红外特征解码模块,特征融合模块;该Transformer结构图像去雾模型组成如图2所示。
进一步地,根据成对的近红外图片数据及Transformer结构图像去雾模型得到去雾后清晰彩色图片结果,包括:
通过可见光图像特征编码模块,对可见光图像进行表征,按RGB通道得到三组可见光图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接三个Transformer编码单元;
通过近红外特征编码模块,对近红外图像进行表征,得到一组近红外图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接两个Transformer编码单元;
通过特征交互模块,可见光图像的特征向量和近红外图像的特征向量通过特征图相加方式再经过反卷积层和ReLU激活层得到交互特征向量;
通过可见光特征解码模块,将三组可见光图像特征向量转化为一个可见光图像序列,该解码模块包含三个Transformer编码单元和一个上采样卷积层;
通过近红外特征解码模块,将一组近红外图像特征向量转化为一个近红外图像序列,该解码模块包含两个Transformer编码单元和一个上采样卷积层;
通过特征融合模块,将可见光序列进行全局平均池化再进行3*3的卷积,将近红外图像序列进行两次1*1的卷积,两步操作的结果与交互特征向量通过特征图相加方式进行合并,再将该合并结果进行通道重组,最后进行5*5的深度可分离卷积和尺寸调整卷积得到去雾后清晰彩色图像结果。
实施例3:
图5是本发明实施例提供的一种使用电子设备的流程图,该电子设备500可因配置或性能不同产生较大差异。电子设备500中501为近红外玻片,可选波段范围为700nm-1500nm,用于采集近红外图片,使用时通过安装或者拆卸在保证其余设备不移动的情况下获取可见光和近红外成对图像。电子设备500包括一个或者一个以上的摄影镜头502和一个或一个以上的CMOS元件503,其中摄影镜头502可以采用长焦,短焦及广角等不同焦距采集不同场景下的图片,CMOS元件503需要支持无高通滤波。电子设备还包括一个或一个以上处理器(centralprocessing units,CPU)504和一个或一个以上的存储器505,其中,存储器505中存储有至少一条指令,至少一条指令由处理器504加载并执行以实现上述一种融合近红外的Transformer结构的图像去雾方法的步骤。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.融合近红外的Transformer结构的图像去雾方法,其特征在于,包括如下步骤:
S1:针对同一场景对应拍摄近红外图像和可见光图像,组成数据集;
S2:将近红外图像和可见光图像均输入到预先训练好的Transformer结构图像去雾模型;
所述Transformer结构图像去雾模型首先对可见光图像以及近红外图像进行编码表征,分别得到可见光图像的特征向量和近红外图像的特征向量,二者融合后得到交互特征向量;
然后对可见光图像的特征向量和近红外图像的特征向量分别进行解码,获得可见光图像序列和近红外图像序列,二者处理后与所述交互特征向量进行合并;
再将该合并结果进行通道重组以及卷积处理,输出去雾后的图像结果。
2.如权利要求1所述的融合近红外的Transformer结构的图像去雾方法,其特征在于:所述Transformer结构图像去雾模型包括可见光图像特征编码模块,近红外图像特征编码模块,特征交互模块,可见光特征解码模块,近红外特征解码模块以及特征融合模块;
各模块所执行流程如下:
所述可见光图像特征编码模块,对所述可见光图像进行表征,按RGB通道得到三组可见光图像的特征向量,所述可见光图像特征编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接三个Transformer编码单元;
所述近红外特征编码模块,对所述近红外图像进行表征,得到一组近红外图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接两个Transformer编码单元;
所述特征交互模块,可见光图像的特征向量和近红外图像的特征向量通过特征图相加方式再经过反卷积层和ReLU激活层得到交互特征向量;
所述可见光特征解码模块,将三组可见光图像特征向量转化为一个可见光图像序列,所述可见光特征解码模块包含三个Transformer编码单元和一个上采样卷积层;
所述近红外特征解码模块,将一组近红外图像特征向量转化为一个近红外图像序列,所述近红外特征解码模块包含两个Transformer编码单元和一个上采样卷积层;
所述特征融合模块,将可见光序列进行全局平均池化再进行3*3的卷积,将近红外图像序列进行两次1*1的卷积,两步操作的结果与所述交互特征向量通过特征图相加方式进行合并,再将该合并结果进行通道重组,最后进行5*5的深度可分离卷积和尺寸调整卷积得到去雾后清晰彩色图像结果。
3.如权利要求1或2所述的融合近红外的Transformer结构的图像去雾方法,其特征在于,输出去雾后的图像结果之后,还包括对所述去雾后的图像结果采用图像鉴别器进行校准;所述图像鉴别器采用了两个包含卷积层-归一化层-ReLU激活层-池化层的块结构,然后通过通道注意力混合空间注意力的方式去校验图像的深层信息,最后通过Softmax函数判断图像的真假概率。
4.如权利要求2所述的融合近红外的Transformer结构的图像去雾方法,其特征在于:所述预先训练好的Transformer结构图像去雾模型,采用如下方式进行预先训练:
使用三种损失约束Transformer结构图像去雾模型的训练,第一种损失为Charbonnier损失;
第二种损失为感知损失,使用预训练的VGG16网络在第14层输出的特征图计算损失;
第三种损失为图像鉴别器所得真假概率损失。
5.融合近红外的Transformer结构的图像去雾装置,其特征在于,所述装置包括数据采集模块和Transformer结构图像去雾模型模块;
数据采集模块,用于针对同一场景对应拍摄采集可见光图像和近红外图像;
Transformer结构图像去雾模型模块,以所述可见光图像和近红外图像,所述Transformer结构图像去雾模型首先对可见光图像以及近红外图像进行编码表征,分别得到可见光图像的特征向量和近红外图像的特征向量,二者融合后得到交互特征向量;然后对可见光图像的特征向量和近红外图像的特征向量分别进行解码,获得可见光图像序列和近红外图像序列,二者处理后与所述交互特征向量进行合并,再将该合并结果进行通道重组以及卷积处理,输出去雾后的图像结果。
6.如权利要求5所述的融合近红外的Transformer结构的图像去雾装置,其特征在于,所述Transformer结构图像去雾模型包括可见光图像特征编码模块,近红外图像特征编码模块,特征交互模块,可见光特征解码模块,近红外特征解码模块,特征融合模块;
所述可见光图像特征编码模块,对所述可见光图像进行表征,按RGB通道得到三组可见光图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接三个Transformer编码单元;
所述近红外特征编码模块,对所述近红外图像进行表征,得到一组近红外图像的特征向量,该编码模块首先包含一个下采样卷积层和一个全局平均池化层,其后串行连接两个Transformer编码单元;
所述特征交互模块,可见光图像的特征向量和近红外图像的特征向量通过特征图相加方式再经过反卷积层和ReLU激活层得到交互特征向量;
所述可见光特征解码模块,将三组可见光图像特征向量转化为一个可见光图像序列,该解码模块包含三个Transformer编码单元和一个上采样卷积层;
所述近红外特征解码模块,将一组近红外图像特征向量转化为一个近红外图像序列,该解码模块包含两个Transformer编码单元和一个上采样卷积层;
所述特征融合模块,将可见光序列进行全局平均池化再进行3*3的卷积,将近红外图像序列进行两次1*1的卷积,两步操作的结果与所述交互特征向量通过特征图相加方式进行合并,再将该合并结果进行通道重组,最后进行5*5的深度可分离卷积和尺寸调整卷积得到去雾后清晰彩色图像结果。
CN202310524524.XA 2023-05-10 2023-05-10 融合近红外的Transformer结构的图像去雾方法及装置 Pending CN116703752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310524524.XA CN116703752A (zh) 2023-05-10 2023-05-10 融合近红外的Transformer结构的图像去雾方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310524524.XA CN116703752A (zh) 2023-05-10 2023-05-10 融合近红外的Transformer结构的图像去雾方法及装置

Publications (1)

Publication Number Publication Date
CN116703752A true CN116703752A (zh) 2023-09-05

Family

ID=87828382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310524524.XA Pending CN116703752A (zh) 2023-05-10 2023-05-10 融合近红外的Transformer结构的图像去雾方法及装置

Country Status (1)

Country Link
CN (1) CN116703752A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078920A (zh) * 2023-10-16 2023-11-17 昆明理工大学 一种基于可变形注意力机制的红外-可见光目标检测方法
CN117726920A (zh) * 2023-12-20 2024-03-19 广州丽芳园林生态科技股份有限公司 基于知识图谱的植物病虫害识别方法、***、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078920A (zh) * 2023-10-16 2023-11-17 昆明理工大学 一种基于可变形注意力机制的红外-可见光目标检测方法
CN117078920B (zh) * 2023-10-16 2024-01-23 昆明理工大学 一种基于可变形注意力机制的红外-可见光目标检测方法
CN117726920A (zh) * 2023-12-20 2024-03-19 广州丽芳园林生态科技股份有限公司 基于知识图谱的植物病虫害识别方法、***、设备及存储介质
CN117726920B (zh) * 2023-12-20 2024-06-07 广州丽芳园林生态科技股份有限公司 基于知识图谱的植物病虫害识别方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113658051B (zh) 一种基于循环生成对抗网络的图像去雾方法及***
CN112233038B (zh) 基于多尺度融合及边缘增强的真实图像去噪方法
CN109360171B (zh) 一种基于神经网络的视频图像实时去模糊方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
TW202134997A (zh) 用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備
CN116703752A (zh) 融合近红外的Transformer结构的图像去雾方法及装置
Hu et al. Underwater image restoration based on convolutional neural network
CN112767279B (zh) 一种基于离散小波集成生成对抗网络的水下图像增强方法
CN110544213A (zh) 一种基于全局和局部特征融合的图像去雾方法
CN109191366B (zh) 基于人体姿态的多视角人体图像合成方法及装置
CN110136057B (zh) 一种图像超分辨率重建方法、装置及电子设备
CN113284061B (zh) 一种基于梯度网络的水下图像增强方法
CN113538229B (zh) 基于特征循环融合的多帧红外图像超分辨率方法和***
CN116152120A (zh) 一种融合高低频特征信息的低光图像增强方法及装置
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
CN116957931A (zh) 一种基于神经辐射场的相机图像画质提升方法
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计***
CN115511708A (zh) 基于不确定性感知特征传输的深度图超分辨率方法及***
CN111553856A (zh) 基于深度估计辅助的图像去雾方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN114565539A (zh) 一种基于线上知识蒸馏的图像去雾方法
CN113628143A (zh) 一种基于多尺度卷积的加权融合图像去雾方法及装置
CN111292251B (zh) 图像偏色校正方法、装置以及计算机存储介质
CN104754320B (zh) 一种3d‑jnd阈值计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination