CN111861880B - 基于区域信息增强与块自注意力的图像超分与融合方法 - Google Patents

基于区域信息增强与块自注意力的图像超分与融合方法 Download PDF

Info

Publication number
CN111861880B
CN111861880B CN202010506835.XA CN202010506835A CN111861880B CN 111861880 B CN111861880 B CN 111861880B CN 202010506835 A CN202010506835 A CN 202010506835A CN 111861880 B CN111861880 B CN 111861880B
Authority
CN
China
Prior art keywords
super
fusion
resolution
block
source image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010506835.XA
Other languages
English (en)
Other versions
CN111861880A (zh
Inventor
李华锋
岑悦亮
余正涛
张亚飞
原铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010506835.XA priority Critical patent/CN111861880B/zh
Publication of CN111861880A publication Critical patent/CN111861880A/zh
Application granted granted Critical
Publication of CN111861880B publication Critical patent/CN111861880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于区域信息增强与块自注意力的图像超分与融合方法,属于数字图像处理技术领域。本方法包含源图像超分辨率分支与融合超分辨率分支。在源图像超分辨率分支中,迭代使用特征提取块提取源图像特征图,并使用密集连接以充分利用前后的特征图信息。每个特征提取块的输出还将经过区域信息增强块以探索源图像中各个物体所在的区域,这些信息将辅助融合超分辨率分支精确预测融合决策图。在融合超分辨率分支中,两张源图像拼接在一起输入,结合源图像超分辨率分支中输入的区域增强后的源图像信息,迭代使用基于块自注意力机制的融合块,以更好地区分聚焦与非聚焦区域。每个分支的最后使用亚像素卷积,产生超分辨率的源图像及融合图像。

Description

基于区域信息增强与块自注意力的图像超分与融合方法
技术领域
本发明涉及一种基于区域信息增强与块自注意力的图像超分与融合方法,属于图像信息处理技术领域。
背景技术
图像融合的目的是将不同相机在同一场景中捕捉到的两个或多个源图像的信息融合为一幅图像,并保证每个源图像的信息都能被保留。图像融合在安全监控图像、医学图像以及卫星遥感图像等领域有着非常广泛的应用。近年来,许多研究取得了很好的融合效果,但现有的方法通常是基于高分辨率的多聚焦源图像数据集去融合的,然而,现实中的成像***得到的图像并不一定是高分辨率的图像。当融合低分辨率的源图像时,融合图像也将是低分辨率的,甚至是模糊和缺少细节信息的,这就降低了图像融合技术的实用性。为了将低分辨率源图像输入传统的融合方法进行融合,通常采用双三次插值和最近邻插值作为上采样操作来统一源图像的分辨率。但是,这些插值方法过于简单,对不同的数据不具有针对性,会引入错误的信息从而降低图像纹理细节的准确性,导致融合效果较差;另外,对于多聚焦图像的融合任务,还会降低融合决策图的准确性。因此,为了解决这些缺点,使低分辨率图像融合任务更加高效,迫切需要一种能精确超分辨率并融合图像的方法。
近年来,许多基于深度学习的图像融合方法被提出,对比基于变换域和空间域的融合方法,这些方法拥有更加强大的提取纹理和细节的能力。在这些方法中,有一类是采用编码器-解码器网络,利用编码器提取源图像的特征,利用解码网络融合特征,逐步放大得到融合后的图像。一类方法采用预训练好的分类卷积网络,将图像块输入其中来预测图像块是否聚焦,从而产生融合决策图。一类方法将源图像分解为基础层和细节层分别进行融合,其中基础层包含大规模的轮廓或强度变化,细节层包含重要的纹理。还有一些方法基于生成对抗网络,与生成器实现融合图像,而鉴别器仅用于区分融合图像与可见光图像的差异,从可见光图像中提取更多纹理。这些方法虽有创新和成功之处,但仍存在两个主要缺点:1)源图像分辨率低,融合后的图像分辨率低,缺乏纹理细节;2)不能精确的估计出图像中显著特征的区域范围,从而导致融合结果图像包含的源图像显著特征不够完整。
为克服前两方面的不足,一些工作将超分辨率与图像融合任务结合起来。基于字典学习的方法从高分辨率图像中学习一组多尺度字典,然后使用基于局部信息内容来融合低分辨率图像块的稀疏系数,但是这些方法需要将低分辨率图像到高分辨率图像之间的字典存储起来,从而消耗了内存。某些方法通过压缩感知来融合图像,然而,这些方法一方面需要经过两个步骤,即把这个任务分解成图像的超分辨率和融合,这是非常耗时的。还有些方法利用结构张量、分数阶微分和变分技术,将图像融合和超分辨率融合为一步,但是这些方法都只能进行整数倍的超分辨率,不够灵活和实用,其融合结果也不够好。
发明内容
本发明要解决的技术问题是提供一种基于区域信息增强与块自注意力的图像超分与融合方法,以解决源图像分辨率低时的图像融合问题,以提高融合结果的质量。
本发明采用的技术方案是:一种基于区域信息增强与块自注意力的图像超分与融合方法,以低分辨率多聚焦图像融合方法为例,流程图如图1所示,所述方法具体步骤如下:
Step1、在多聚焦图像的超分与融合任务时,如图1所示,低分辨率的源图像
Figure GDA0003687926730000021
Figure GDA0003687926730000022
分别输入到源图像超分辨率分支中,同时,
Figure GDA0003687926730000023
按通道拼接在一起输入到融合与超分辨率分支中。在源图像超分辨率分支和融合与超分辨率分支的最开始,是一层3×3的卷积层,用于初步提取特征。之后,源图像超分辨率分支中含有17个特征提取块、17个区域信息增强块,融合与超分辨率分支中含有17个基于块自注意力机制的融合块。17个特征提取块、17个区域信息增强块、17个基于块自注意力机制的融合块一一对应,定义i(0≤i≤16)为第i个特征提取块/区域信息增强块/基于块自注意力机制的融合块。
Step2、在源图像超分辨率分支中,初始的特征图将经过17个特征提取块,并且,这17个特征提取块之间将采用密集连接的方式连接起来。第i-1个特征提取块的输出
Figure GDA0003687926730000024
除了会继续输入到第i个特征提取块以构建出超分辨率的源图像以外,还将输入到第i个区域信息增强块中以辅助融合与超分辨率分支获取决策权重图。区域信息增强块将增强显著特征区域的信息,尤其是聚焦区域的特征信息。区域信息增强块输出的这些信息将输入到融合与超分辨率分支中第i个基于块自注意力机制的融合块;
Step3、在融合与超分辨率分支中,初始的特征图将经过17个基于块自注意力机制的融合块,充分地提取特征并自适应地融合信息;
Step4、在源图像超分辨率分支中的17个特征提取块之后,以及源图像超分辨率分支中的17个基于块自注意力机制的融合块之后,是一层1×1的卷积以及一层亚像素卷积。1×1的卷积缩减
Figure GDA0003687926730000031
(第17个基于块自注意力机制的融合块的输出)的通道数到放大倍数r的平方,其中
Figure GDA0003687926730000032
分别是
Figure GDA0003687926730000033
在源图像超分辨率分支的第17个特征提取块的输出、
Figure GDA0003687926730000034
在源图像超分辨率分支的第17个特征提取块的输出、融合与超分辨率分支的第17个基于块自注意力机制的融合块的输出,亚像素卷积再对上述1×1卷积层的输出进行上采样,达到目标尺寸H×W,H和W分别表示目标尺寸的高和宽,经过亚像素卷积之后,源图像超分辨率分支得到
Figure GDA0003687926730000035
的超分辨率结果
Figure GDA0003687926730000036
而在融合与超分辨率分支中,还需要经过Sigmoid函数进行归一化,并经过阈值划分得到多聚焦图像融合的决策权重图WSR,最后结合源图像得到超分辨率融合结果图像
Figure GDA0003687926730000037
Step5、在网络参数训练过程中,经过Step4得到
Figure GDA0003687926730000038
的超分辨率结果
Figure GDA0003687926730000039
Figure GDA00036879267300000310
以及决策权重图WSR、超分辨率融合结果图像
Figure GDA00036879267300000311
之后,将计算它们与标签之间的损失,并使用基于梯度下降法的优化器最小化该损失,从而优化网络的参数,当损失逐渐降低趋于平缓时,网络训练完成,测试即可以得到高质量的超分辨率和融合结果。
具体地,所述Step2中提出的密集连接方式,是指源图像超分辨率分支中第一层卷积层输出的初始特征图f0,以及前面i-1个特征提取块的输出都将作为第i个特征提取块的输入。最后,f0以及所有块的输出拼接起来,通过1×1的卷积进行降维和信息整合。特征提取块的结构如图2(a)所示,其由三个3×3的卷积层构成,并使用残差学习的方式以缓解深度网络带来的退化问题;
具体地,所述Step2中提出的区域信息增强块如图2(c)所示。首先,一层卷积层作用在输入特征图上,其输出特征图的维度为输入特征图维度的2倍;输出特征图再按通道切片得到相同维度两个特征图,这两个特征图就是输入特征图水平、垂直方向的偏移量;即这层卷积层学***、垂直方向上的偏移量,水平与垂直偏移量和输入特征图将输入到可变形卷积中,从而得到更加贴近物体的形状和尺寸的特征图。定义
Figure GDA00036879267300000312
分别为
Figure GDA00036879267300000313
的水平、垂直方向的偏移量,
Figure GDA00036879267300000314
分别为
Figure GDA00036879267300000315
的水平、垂直方向的偏移量,其中
Figure GDA00036879267300000316
分别是
Figure GDA00036879267300000317
在源图像超分辨率分支的第i个特征提取块的输出、
Figure GDA0003687926730000041
在源图像超分辨率分支的第i个特征提取块的输出。因此,第i次输入到超分辨率与融合分支的凸显物体区域信息的特征图
Figure GDA0003687926730000042
计算方式如下:
Figure GDA0003687926730000043
Figure GDA0003687926730000044
Figure GDA0003687926730000045
Figure GDA0003687926730000046
其中split(·)为通道切片操作,DConv(·)表示可变形卷积,Conv(·)表示卷积层,其卷积核大小k为3,LeakyRelu(·)为一种常用的非线性激活函数,其斜率s设置为0.2。
具体地,所述Step3中提出的块自注意力机制是指,考虑一个像素的局部特征时,应该将注意力放在那些对它影响较大的像素上。在本发明中,将探索每个位置与其7×7的邻域范围内的特征关系。在
Figure GDA0003687926730000047
中,对于位置p,定义
Figure GDA0003687926730000048
是以p为中心点的7×7的邻域范围;
Figure GDA0003687926730000049
Figure GDA00036879267300000410
区域对应的特征值,δ(·)将邻域范围内的信息融合在一起;Sigmoid(·)为块内规范化函数,用于计算出邻域内其他位置特征对中心点p处特征的权重;经过块自注意力机制后,p位置的特征值yp可以计算为:
Figure GDA00036879267300000411
其中
Figure GDA00036879267300000412
即使用转置相乘的方式计算出p位置的特征向量xp与q位置的特征向量xq的相关性。BatchNormalize(·)为批归一化操作。
所述Step3中提出的基于块自注意力机制的融合块,是指前面输出的融合特征图与源图像超分辨率分支输入的凸显聚焦区域的特征图拼接起来,经过1×1的卷积和几层3×3的卷积进行信息整合之后,使用基于块范围的自注意力机制以更精确地凸显出显著物体的范围。
具体地,所述Step4中Sigmoid函数进行归一化指的是:
Figure GDA00036879267300000413
其中
Figure GDA0003687926730000051
表示超分辨率与融合分支中亚像素卷积后的结果,该特征图是单通道的,并且是目标尺寸大小的;(m,n)表示坐标位置,然后,使用阈值t划分得到多聚焦图像融合的决策权重图。本发明将t设为0.5,决策权重图WSR可以通过以下公式得到:
Figure GDA0003687926730000052
之后,融合结果
Figure GDA0003687926730000053
可以通过决策权重图WSR得到:
Figure GDA0003687926730000054
具体地,所述Step5中提出的损失计算,采用具有更好凸优化性质的L1范数来计算损失,并使用Adam优化器去最小化损失值。定义
Figure GDA0003687926730000055
为标签值,分别为
Figure GDA0003687926730000056
对应的高分辨率图像、
Figure GDA0003687926730000057
对应的高分辨率图像、高分辨率融合图像,WSR、WHR分别为决策权重图和高分辨率标签融合决策图,则损失计算如下:
Figure GDA0003687926730000058
具体地,除了特别说明以外,所有的卷积层后都使用Relu作为非线性激活函数;卷积层都为SAME类型卷积,即卷积层的输入输出都将保持尺寸一致,所有源图像共用一个源图像超分辨率分支。
本发明的有益效果是:本方法包含源图像超分辨率分支与融合超分辨率分支,其中,图像超分辨率分支辅助融合超分辨率分支以得到准确的融合决策图。在源图像超分辨率分支中,迭代使用特征提取块提取源图像特征图,并使用密集连接以充分利用前后的特征图信息。每个特征提取块的输出还将经过区域信息增强块从而探索到源图像中各个物体的范围和区域,这些信息将传输到融合超分辨率分支中,以精确预测融合的决策权重图。在融合超分辨率分支中,两张源图像拼接在一起输入,结合源图像超分辨率分支中输入的区域增强后的源图像的信息,迭代使用基于块自注意力机制的融合块,从而更好地区分聚焦与非聚焦的区域。每个分支的最后使用亚像素卷积作为上采样层,产生超分辨率的源图像以及融合图像。
附图说明
图1为本发明结合具体例子的总体架构图;
图2是各个子模块结构图:(a)为源图像超分辨率分支中特征提取块的结构图;(b)为超分辨率与融合分支中基于自注意力机制的融合块的结构图;(c)为区域信息增强块结构图。
具体实施方式
下面将详细地对实施例进行说明,具体示例及流程表示在附图1中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的***和方法的示例。
实施例1:参见图1为本申请基于区域信息增强与块自注意力的图像超分与融合方法步骤示意图,具体实例的输入源图像和输出结果图像也在该图中画出。由图1知,本申请由源图像超分辨率分支以及超分辨率与融合分支构成,提供了基于区域信息增强与块自注意力的图像超分与融合方法,包括:
Step1、在多聚焦图像的超分与融合任务时,如图1所示,低分辨率的源图像
Figure GDA0003687926730000061
Figure GDA0003687926730000062
分别输入到源图像超分辨率分支中,同时,
Figure GDA0003687926730000063
按通道拼接在一起输入到融合与超分辨率分支中。在源图像超分辨率分支和融合与超分辨率分支的最开始,是一层3×3的卷积层,用于初步提取特征。之后,源图像超分辨率分支中含有17个特征提取块、17个区域信息增强块,融合与超分辨率分支中含有17个基于块自注意力机制的融合块。17个特征提取块、17个区域信息增强块、17个基于块自注意力机制的融合块一一对应,定义i(0≤i≤16)为第i个特征提取块/区域信息增强块/基于块自注意力机制的融合块。
Step2、在源图像超分辨率分支中,初始的特征图将经过17个特征提取块,并且,这17个特征提取块之间将采用密集连接的方式连接起来。第i-1个特征提取块的输出
Figure GDA0003687926730000064
除了会继续输入到第i个特征提取块以构建出超分辨率的源图像以外,还将输入到第i个区域信息增强块中以辅助融合与超分辨率分支获取决策权重图。区域信息增强块将增强显著特征区域的信息,尤其是聚焦区域的特征信息。区域信息增强块输出的这些信息将输入到融合与超分辨率分支中第i个基于块自注意力机制的融合块;
Step3、在融合与超分辨率分支中,初始的特征图将经过17个基于块自注意力机制的融合块,充分地提取特征并自适应地融合信息;
Step4、在经过源图像超分辨率分支中的17个特征提取块之后,以及源图像超分辨率分支中的17个基于块自注意力机制的融合块之后,是一层1×1的卷积层以及一层亚像素卷积。1×1的卷积缩减
Figure GDA0003687926730000071
的通道数到放大倍数r的平方,其中
Figure GDA0003687926730000072
分别是
Figure GDA0003687926730000073
在源图像超分辨率分支的第17个特征提取块的输出、
Figure GDA0003687926730000074
在源图像超分辨率分支的第17个特征提取块的输出、融合与超分辨率分支的第17个基于块自注意力机制的融合块的输出,亚像素卷积再对上述1×1卷积层的输出进行上采样,达到目标尺寸H×W,H和W分别表示目标尺寸的高和宽,经过亚像素卷积之后,源图像超分辨率分支得到
Figure GDA0003687926730000075
的超分辨率结果
Figure GDA0003687926730000076
而在融合与超分辨率分支中,还需要经过Sigmoid函数进行归一化,并经过阈值划分得到多聚焦图像融合的决策权重图WSR,最后结合源图像得到超分辨率融合结果图像
Figure GDA0003687926730000077
Step5、在网络参数训练过程中,经过Step4得到
Figure GDA0003687926730000078
的超分辨率结果
Figure GDA0003687926730000079
Figure GDA00036879267300000710
以及决策权重图WSR、超分辨率融合结果图像
Figure GDA00036879267300000711
之后,将计算它们与标签之间的损失,并使用基于梯度下降法的优化器最小化该损失,从而优化网络的参数,当损失逐渐降低趋于平缓时,网络训练完成,测试即可以得到高质量的超分辨率和融合结果。
进一步地,所述Step2中,密集连接方式是指源图像超分辨率分支中第一层卷积层输出的初始特征图f0,以及前面i-1个特征提取块的输出都将作为第i个特征提取块的输入。最后,f0以及所有块的输出拼接起来,通过1×1的卷积进行降维和信息整合。特征提取块的结构如图2(a)所示,其由三个3×3的卷积层构成,并使用残差学习的方式以缓解深度网络带来的退化问题;
进一步地,所述Step2中,提出的区域信息增强块如图2(c)所示。首先,一层卷积层作用在输入特征图上,其输出特征图的维度为输入特征图维度的2倍;输出特征图再按通道切片得到相同维度两个特征图,这两个特征图就是输入特征图水平、垂直方向的偏移量;即这层卷积层学***、垂直方向上的偏移量,水平与垂直偏移量和输入特征图将输入到可变形卷积中,从而得到更加贴近物体的形状和尺寸的特征图。定义
Figure GDA00036879267300000712
分别为
Figure GDA00036879267300000713
的水平、垂直方向的偏移量,
Figure GDA00036879267300000714
分别为
Figure GDA00036879267300000715
的水平、垂直方向的偏移量,其中
Figure GDA00036879267300000716
分别是
Figure GDA00036879267300000717
在源图像超分辨率分支的第i个特征提取块的输出、
Figure GDA00036879267300000718
在源图像超分辨率分支的第i个特征提取块的输出。因此,第i次输入到超分辨率与融合分支的凸显物体区域信息的特征图
Figure GDA0003687926730000081
计算方式如下:
Figure GDA0003687926730000082
Figure GDA0003687926730000083
Figure GDA0003687926730000084
Figure GDA0003687926730000085
其中split(·)为通道切片操作,DConv(·)表示可变形卷积,Conv(·)表示卷积层,其卷积核大小k为3,LeakyRelu(·)为一种常用的非线性激活函数,其斜率s设置为0.2。
进一步地,所述Step3中,块自注意力机制是指,考虑一个像素的局部特征时,应该将注意力放在那些对它影响较大的像素上。在本发明中,将探索每个位置与其7×7的邻域范围内的特征关系。在
Figure GDA0003687926730000086
中,对于位置p,定义
Figure GDA0003687926730000087
是以p为中心点的7×7的邻域范围;
Figure GDA0003687926730000088
Figure GDA0003687926730000089
区域对应的特征值,δ(·)将邻域范围内的信息融合在一起;Sigmoid(·)为块内规范化函数,用于计算出邻域内其他位置特征对中心点p处特征的权重;经过块自注意力机制后,p位置的特征值yp可以计算为:
Figure GDA00036879267300000810
其中
Figure GDA00036879267300000811
即使用转置相乘的方式计算出p位置的特征向量xp与q位置的特征向量xq的相关性。BatchNormalize(·)为批归一化操作。
进一步地,所述Step3中,基于块自注意力机制的融合块是指前面输出的融合特征图与源图像超分辨率分支输入的凸显聚焦区域的特征图拼接起来,经过1×1的卷积和几层3×3的卷积进行信息整合之后,使用基于块范围的自注意力机制以更精确地凸显出显著物体的范围。
所述Step4中,Sigmoid函数进行归一化指的是:
Figure GDA00036879267300000812
其中
Figure GDA00036879267300000813
表示超分辨率与融合分支中亚像素卷积后的结果,该特征图是单通道的,并且是目标尺寸大小的;(m,n)表示坐标位置,然后,使用阈值t划分得到多聚焦图像融合的决策权重图。本发明将t设为0.5,决策权重图WSR可以通过以下公式得到:
Figure GDA0003687926730000091
之后,融合结果
Figure GDA0003687926730000092
可以通过决策权重图WSR得到:
Figure GDA0003687926730000093
进一步地,所述Step5中,关于损失计算,本发明采用具有更好凸优化性质的L1范数来计算损失,并使用Adam优化器去最小化损失值。定义
Figure GDA0003687926730000094
为标签值,分别为
Figure GDA0003687926730000095
对应的高分辨率图像、
Figure GDA0003687926730000096
对应的高分辨率图像、高分辨率融合图像,WSR、WHR分别为决策权重图和高分辨率标签融合决策图,则损失计算如下:
Figure GDA0003687926730000097
所述Step5中,输入测试图像即图1中左侧的两张低分辨率源图像,就是具体实例的输入低分辨率源图像,图1右侧中间图像即具体实例的融合结果图像,可以看出,该超分辨率融合结果包含了两张低分辨率源图像丰富的纹理细节信息,说明本发明能深层次地捕获低分辨率源图像中的信息,并且进一步生成自然的高质量的细节。聚焦与非聚焦边界也被较为精确地估算出来了,说明本发明的区域信息增强块起到了精确估计物体轮廓的效果,基于块自注意力机制的融合块起到了精确估计聚焦区域的效果,两者的结合保证了两张源图像聚焦区域的信息融合。
进一步地,除了特别说明以外,所有的卷积层后都使用Relu作为非线性激活函数;卷积层都为SAME类型卷积,即卷积层的输入输出都将保持尺寸一致,所有源图像共用一个源图像超分辨率分支。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于区域信息增强与块自注意力的图像超分与融合方法,其特征在于:具体步骤如下:
Step1、在多聚焦图像的超分与融合任务时,低分辨率的源图像
Figure FDA0003687926720000011
分别输入到源图像超分辨率分支中,同时,
Figure FDA0003687926720000012
按通道拼接在一起输入到融合与超分辨率分支中,在源图像超分辨率分支和融合与超分辨率分支的最开始,是一层3×3的卷积层,用于初步提取特征,之后,源图像超分辨率分支中含有17个特征提取块、17个区域信息增强块,融合与超分辨率分支中含有17个基于块自注意力机制的融合块,17个特征提取块、17个区域信息增强块、17个基于块自注意力机制的融合块一一对应,定义i,0≤i≤16为第i个特征提取块或区域信息增强块或基于块自注意力机制的融合块;
Step2、在源图像超分辨率分支中,初始的特征图将经过17个特征提取块,并且,这17个特征提取块之间将采用密集连接的方式连接起来,第i-1个特征提取块的输出
Figure FDA00036879267200000110
Figure FDA00036879267200000111
除了会继续输入到第i个特征提取块以构建出超分辨率的源图像以外,还将输入到第i个区域信息增强块中以辅助融合与超分辨率分支获取决策权重图,区域信息增强块将增强显著特征区域的信息,聚焦区域的特征信息,区域信息增强块输出的这些信息将输入到融合与超分辨率分支中第i个基于块自注意力机制的融合块;
Step3、在融合与超分辨率分支中,初始的特征图将经过17个基于块自注意力机制的融合块,充分地提取特征并自适应地融合信息;
Step4、在源图像超分辨率分支中的17个特征提取块之后,以及源图像超分辨率分支中的17个基于块自注意力机制的融合块之后,是一层1×1的卷积以及一层亚像素卷积,1×1的卷积缩减
Figure FDA0003687926720000013
的通道数到放大倍数r的平方,其中
Figure FDA0003687926720000014
Figure FDA0003687926720000015
分别是
Figure FDA0003687926720000016
在源图像超分辨率分支的第17个特征提取块的输出、
Figure FDA0003687926720000017
在源图像超分辨率分支的第17个特征提取块的输出、融合与超分辨率分支的第17个基于块自注意力机制的融合块的输出,亚像素卷积再对上述1×1卷积层的输出进行上采样,达到目标尺寸H×W,H和W分别表示目标尺寸的高和宽,经过亚像素卷积之后,源图像超分辨率分支得到
Figure FDA0003687926720000018
的超分辨率结果
Figure FDA0003687926720000019
而在融合与超分辨率分支中,还需要经过Sigmoid函数进行归一化,并经过阈值划分得到多聚焦图像融合的决策权重图WSR,最后结合源图像得到超分辨率融合结果图像
Figure FDA0003687926720000021
Step5、在网络参数训练过程中,经过Step4得到
Figure FDA0003687926720000022
的超分辨率结果
Figure FDA0003687926720000023
Figure FDA0003687926720000024
以及决策权重图WSR、超分辨率融合结果图像
Figure FDA0003687926720000025
之后,将计算它们与标签之间的损失,并使用基于梯度下降法的优化器最小化该损失,从而优化网络的参数,当损失逐渐降低趋于平缓时,网络训练完成,测试即可以得到高质量的超分辨率和融合结果;
所述Step2中提出的区域信息增强块为:首先,一层卷积层作用在输入特征图上,其输出特征图的维度为输入特征图维度的2倍;输出特征图再按通道切片得到相同维度两个特征图,这两个特征图就是输入特征图水平、垂直方向的偏移量;即这层卷积层学***、垂直方向上的偏移量,水平与垂直偏移量和输入特征图将输入到可变形卷积中,从而得到更加贴近物体的形状和尺寸的特征图,定义
Figure FDA0003687926720000026
分别为
Figure FDA0003687926720000027
的水平、垂直方向的偏移量,
Figure FDA0003687926720000028
分别为
Figure FDA0003687926720000029
的水平、垂直方向的偏移量,其中
Figure FDA00036879267200000210
分别是
Figure FDA00036879267200000211
在源图像超分辨率分支的第i个特征提取块的输出、
Figure FDA00036879267200000212
在源图像超分辨率分支的第i个特征提取块的输出,因此,第i次输入到超分辨率与融合分支的凸显物体区域信息的特征图
Figure FDA00036879267200000213
计算方式如下:
Figure FDA00036879267200000214
Figure FDA00036879267200000215
Figure FDA00036879267200000216
Figure FDA00036879267200000217
其中split(·)为通道切片操作,DConv(·)表示可变形卷积,Conv(·)表示卷积层,其卷积核大小k为3,LeakyRelu(·)为一种常用的非线性激活函数,其斜率s设置为0.2;
所述Step3中提出的块自注意力机制是指,考虑一个像素的局部特征时,应该将注意力放在那些对它影响较大的像素上,将探索每个位置与其7×7的邻域范围内的特征关系,在
Figure FDA00036879267200000218
中,对于位置p,定义
Figure FDA00036879267200000219
是以p为中心点的7×7的邻域范围;
Figure FDA00036879267200000220
Figure FDA00036879267200000221
区域对应的特征值,δ(·)将邻域范围内的信息融合在一起;Sigmoid(·)为块内规范化函数,用于计算出邻域内其他位置特征对中心点p处特征的权重;经过块自注意力机制后,p位置的特征值yp可以计算为:
Figure FDA0003687926720000031
其中
Figure FDA0003687926720000039
即使用转置相乘的方式计算出p位置的特征向量xp与q位置的特征向量xq的相关性,BatchNormalize(·)为批归一化操作;
所述Step3中提出的基于块自注意力机制的融合块,是指前面输出的融合特征图与源图像超分辨率分支输入的凸显聚焦区域的特征图拼接起来,经过1×1的卷积和几层3×3的卷积进行信息整合之后,使用基于块范围的自注意力机制以更精确地凸显出显著物体的范围。
2.根据权利要求1所述的基于区域信息增强与块自注意力的图像超分与融合方法,其特征在于:
所述Step2中提出的密集连接方式是指:源图像超分辨率分支中第一层卷积层输出的初始特征图f0,以及前面i-1个特征提取块的输出都将作为第i个特征提取块的输入,最后,f0以及所有块的输出拼接起来,通过1×1的卷积进行降维和信息整合;特征提取块的结构由三个3×3的卷积层构成,并使用残差学习的方式以缓解深度网络带来的退化问题。
3.根据权利要求1所述的基于区域信息增强与块自注意力的图像超分与融合方法,其特征在于:所述Step4中Sigmoid函数进行归一化指的是:
Figure FDA0003687926720000034
其中
Figure FDA0003687926720000035
表示超分辨率与融合分支中亚像素卷积后的结果,该特征图是单通道的,并且是目标尺寸大小的;(m,n)表示坐标位置,然后,使用阈值t划分得到多聚焦图像融合的决策权重图,将t设为0.5,决策权重图WSR可以通过以下公式得到:
Figure FDA0003687926720000036
之后,融合结果
Figure FDA0003687926720000037
可以通过决策权重图WSR得到:
Figure FDA0003687926720000038
4.根据权利要求1所述的基于区域信息增强与块自注意力的图像超分与融合方法,其特征在于:所述Step5中提出的损失计算,采用具有更好凸优化性质的L1范数来计算损失,并使用Adam优化器去最小化损失值,定义
Figure FDA0003687926720000041
为标签值,分别为
Figure FDA0003687926720000042
对应的高分辨率图像、
Figure FDA0003687926720000043
对应的高分辨率图像、高分辨率融合图像,WSR、WHR分别为决策权重图和高分辨率标签融合决策图,则损失计算如下:
Figure FDA0003687926720000044
5.根据权利要求1-4任一项所述的基于区域信息增强与块自注意力的图像超分与融合方法,其特征在于:所有的卷积层后都使用Relu作为非线性激活函数;卷积层都为SAME类型卷积,即卷积层的输入输出都将保持尺寸一致,所有源图像共用一个源图像超分辨率分支。
CN202010506835.XA 2020-06-05 2020-06-05 基于区域信息增强与块自注意力的图像超分与融合方法 Active CN111861880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010506835.XA CN111861880B (zh) 2020-06-05 2020-06-05 基于区域信息增强与块自注意力的图像超分与融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010506835.XA CN111861880B (zh) 2020-06-05 2020-06-05 基于区域信息增强与块自注意力的图像超分与融合方法

Publications (2)

Publication Number Publication Date
CN111861880A CN111861880A (zh) 2020-10-30
CN111861880B true CN111861880B (zh) 2022-08-30

Family

ID=72986067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010506835.XA Active CN111861880B (zh) 2020-06-05 2020-06-05 基于区域信息增强与块自注意力的图像超分与融合方法

Country Status (1)

Country Link
CN (1) CN111861880B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418163B (zh) * 2020-12-09 2022-07-12 北京深睿博联科技有限责任公司 一种多光谱目标检测导盲***
CN112784909B (zh) * 2021-01-28 2021-09-28 哈尔滨工业大学 基于自注意力机制和自适应子网络的图像分类识别方法
CN113094972B (zh) * 2021-03-15 2022-08-02 西南大学 基于生成对抗网络和环境要素数据的基岩深度预测方法及***
CN113537246A (zh) * 2021-08-12 2021-10-22 浙江大学 一种基于对抗学习的灰度图像同时上色超分方法
CN113705675B (zh) * 2021-08-27 2022-10-04 合肥工业大学 一种基于多尺度特征交互网络的多聚焦图像融合方法
CN113837946B (zh) * 2021-10-13 2022-12-06 中国电子技术标准化研究院 一种基于递进蒸馏网络的轻量化图像超分辨率重建方法
CN113963009B (zh) * 2021-12-22 2022-03-18 中科视语(北京)科技有限公司 基于可形变划块的局部自注意力的图像处理方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109714592A (zh) * 2019-01-31 2019-05-03 天津大学 基于双目融合网络的立体图像质量评价方法
CN109859106A (zh) * 2019-01-28 2019-06-07 桂林电子科技大学 一种基于自注意力的高阶融合网络的图像超分辨率重建方法
CN110033410A (zh) * 2019-03-28 2019-07-19 华中科技大学 图像重建模型训练方法、图像超分辨率重建方法及装置
CN110322402A (zh) * 2019-04-30 2019-10-11 武汉理工大学 基于稠密混合注意力网络的医学图像超分辨率重建方法
CN110334765A (zh) * 2019-07-05 2019-10-15 西安电子科技大学 基于注意力机制多尺度深度学习的遥感影像分类方法
CN111179167A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于多阶段注意力增强网络的图像超分辨方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140719B2 (en) * 2016-12-22 2018-11-27 TCL Research America Inc. System and method for enhancing target tracking via detector and tracker fusion for unmanned aerial vehicles
US10671918B2 (en) * 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859106A (zh) * 2019-01-28 2019-06-07 桂林电子科技大学 一种基于自注意力的高阶融合网络的图像超分辨率重建方法
CN109714592A (zh) * 2019-01-31 2019-05-03 天津大学 基于双目融合网络的立体图像质量评价方法
CN110033410A (zh) * 2019-03-28 2019-07-19 华中科技大学 图像重建模型训练方法、图像超分辨率重建方法及装置
CN110322402A (zh) * 2019-04-30 2019-10-11 武汉理工大学 基于稠密混合注意力网络的医学图像超分辨率重建方法
CN110334765A (zh) * 2019-07-05 2019-10-15 西安电子科技大学 基于注意力机制多尺度深度学习的遥感影像分类方法
CN111179167A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于多阶段注意力增强网络的图像超分辨方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Face Super-Resolution Reconstruction Based on Self-Attention Residual Network";Y QING-MING LIU;《IEEE Access》;20200108;全文 *
"MCFNet: multi-layer concatenation fusion network for medical images fusion";Liang X C et al.;《IEEE Sensors Journal》;20190425;全文 *
"卷积稀疏表示图像融合与超分辨率联合实现";杨默远等;《光学技术》;20200430;全文 *
"基于深度学习的图像描述算法研究";朱欣鑫;《信息科技》;20190815;全文 *

Also Published As

Publication number Publication date
CN111861880A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111861880B (zh) 基于区域信息增强与块自注意力的图像超分与融合方法
Islam et al. Simultaneous enhancement and super-resolution of underwater imagery for improved visual perception
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN109791697B (zh) 使用统计模型从图像数据预测深度
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN110427968B (zh) 一种基于细节增强的双目立体匹配方法
US20180231871A1 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN112733950A (zh) 一种基于图像融合与目标检测结合的电力设备故障诊断方法
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN111696035A (zh) 一种基于光流运动估计算法的多帧图像超分辨率重建方法
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN111932594B (zh) 一种基于光流的十亿像素视频对齐方法及装置、介质
CN112801195A (zh) 一种基于深度学习的雾天能见度预测方法,存储装置及服务器
CN115100409B (zh) 一种基于孪生网络的视频人像分割算法
CN116563103A (zh) 一种基于自适应神经网络的遥感图像时空融合方法
CN112950653B (zh) 一种注意力图像分割方法、装置及介质
CN115330935A (zh) 一种基于深度学习的三维重建方法及***
CN114565764A (zh) 基于舰船实例分割的港口全景感知***
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN113850719A (zh) 基于联合隐式图像函数的rgb图像引导深度图超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant