CN113361546A - 融合非对称卷积和注意力机制的遥感图像特征提取方法 - Google Patents

融合非对称卷积和注意力机制的遥感图像特征提取方法 Download PDF

Info

Publication number
CN113361546A
CN113361546A CN202110679806.8A CN202110679806A CN113361546A CN 113361546 A CN113361546 A CN 113361546A CN 202110679806 A CN202110679806 A CN 202110679806A CN 113361546 A CN113361546 A CN 113361546A
Authority
CN
China
Prior art keywords
remote sensing
feature extraction
sensing image
module
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110679806.8A
Other languages
English (en)
Inventor
董张玉
张鹏飞
张远南
张晋
安森
于金秋
李金徽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110679806.8A priority Critical patent/CN113361546A/zh
Publication of CN113361546A publication Critical patent/CN113361546A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合非对称卷积和注意力机制的遥感图像特征提取方法,包括以下步骤:(1)、获取待提取特征的遥感图像数据;(2)、生成第一神经网络模型,第一神经网络模型的网络架构采用包含五个特征提取模块的ResNet50,第一个特征提取模块包括一个卷积层,第二至第四个特征提取模块分别包括若干残差学习单元;(3)、向第一神经网络模型中加入混合域注意力机制模块,得到第二神经网络模型;(4)、将遥感图像数据送入至第二神经网络模型,得到遥感图像的特征。本发明增强了模型在对数据集中的图像翻转和旋转的鲁棒性,提高了ResNet50网络对遥感图像目标对象特征的提取能力。

Description

融合非对称卷积和注意力机制的遥感图像特征提取方法
技术领域
本发明涉及图像特征提取方法领域,具体是一种融合非对称卷积和注意力机制的遥感图像特征提取方法。
背景技术
深度残差网络(Deep Residual Network,ResNet)是2015年被提出,其通过特征提取实现分类,在ImageNet分类任务上获得第一,刷新了CNN模型在ImageNet上的历史。从经验来看,随着网络层数的不断加深,网络可以对更加复杂的特征进行提取,但经过实验发现网络层数加深时,网络准确度趋于饱和,甚至在下降。在深层网络进行训练的过程中存在着梯度消失和***的现象,在论文《Deep Residual Learning for Image Recognition》中,何凯明博士提出了残差学习来解决此问题,使用一种恒等映射(identity mapping)(具体构造如图1所示),将原网络的几层改成一个残差学习单元。
在何凯明博士提出的残差学习单元中,计算公式如下:
xi+1=xi+F(xi,Wi) (1)
公式(1)中,xi为残差学习单元的输入,Wi为残差学习单元的权重,F(xi,Wi)为残差映射,xi+1为残差学习单元的输出。从残差学习单元的输出可以观察到当网络层数加深时,该模型的性能至少不会下降,但其在特征提取时未能显著区分遥感图像的目标对象,模型的关键特征提取能力还需进一步提高。
发明内容
本发明的目的是提供一种融合非对称卷积和注意力机制的遥感图像特征提取方法,以解决现有技术存在的在特征提取时未能显著区分遥感图像的目标对象问题。
为了达到上述目的,本发明所采用的技术方案为:
融合非对称卷积和注意力机制的遥感图像特征提取方法,包括以下步骤:
(1)、获取待提取特征的遥感图像数据;
(2)、生成第一神经网络模型,所述第一神经网络模型的网络架构采用包含五个依次串联的特征提取模块的ResNet50,其中第一个特征提取模块包括一个卷积层,第二个特征提取模块包括三个依次串联的残差学习单元构成的卷积层,第三个特征提取模块包括四个依次串联的残差学习单元构成的卷积层,第四个特征提取模块包括六个依次串联的残差学习单元构成的卷积层,第五个特征提取模块包括三个依次串联的残差学习单元构成的卷积层;
每个残差学习单元分别包括三个依次串联的卷积核子单元,其中第一个卷积核子单元是大小为1×1的卷积核;第二个卷积核子单元由大小为3×3、1×3、3×1共三个卷积核并联构成;第三个卷积核子单元是大小为1×1的卷积核;每个残差学习单元中分别依次由第一个卷积核子单元进行压缩维度、第二个卷积核子单元进行卷积处理、第三个卷积核子单元进行恢复维度;
(3)、向步骤(2)生成的第一神经网络模型中每个残差学习单元的输出分别连接混合域注意力机制模块,得到第二神经网络模型;混合域注意力机制模块包括特征图提取子模块、融合子模块、分解子模块、Sigmoid激活函数子模块、Scale操作子模块,其中:
所述特征图提取子模块从对应的残差学***和垂直两个方向的特征图;
所述融合子模块对水平和垂直方向的特征图进行特征融合,得到融合结果;
所述分解子模块将融合结果按水平方向的维度和垂直方向的维度进行分解,得到水平方向和垂直方向的分解结果;
所述Sigmoid激活函数子模块对水平方向和垂直方向的分解结果进行激活处理;
所述Scale操作子模块对Sigmoid激活函数子模块的激活处理结果进行Scale操作;
(4)、将步骤(1)获取的遥感图像数据,送入至步骤(3)中的第二神经网络模型,经第二神经网络模型处理后提取得到遥感图像的特征。
所述的融合非对称卷积和注意力机制的遥感图像特征提取方法,每个残差学习单元的第二个卷积核子单元中,三个并联的卷积核输出进行批量归一化处理后进行相加,作为第二个卷积核子单元的输出。
所述的融合非对称卷积和注意力机制的遥感图像特征提取方法,步骤(3)所述的混合域注意力机制模块中,特征图提取子模块将残差学***、垂直两个方向上一维的特征张量,并对两个一维的特征张量进行全局池化操作,以沿着水平方向和垂直方向分别进行聚合,得到对应方向的一维的特征图。
所述的融合非对称卷积和注意力机制的遥感图像特征提取方法,步骤(3)所述的混合域注意力机制模块中,融合子模块采用两个全连接和非线性ReLU操作,对水平和垂直方向的特征图进行处理,使水平和垂直方向的特征图进行特征融合。
一种遥感图像特征提取***,包括处理器和存储器,所述存储器中存储有能够被处理器识别和运行的程序指令,所述处理器运行程序指令时执行权利要求1所述的遥感图像特征提取方法。
所述的一种遥感图像特征提取***,所述程序指令包括第一子程序、第二子程序和第三子程序,所述处理器运行程序指令中第一子程序时执行所述步骤(1),所述处理器运行程序指令中第二子程序时执行所述步骤(2)、(3),所述处理器运行程序指令中第三子程序时执行所述步骤(4)。
与现有技术相比,本发明的优点为:
本发明提出了一种融合非对称卷积和注意力机制的遥感图像特征提取方法,该方法以ResNet50网络为基础网络架构,并在ResNet50网络中使用的残差学习单元的第二卷积核子单元采用非对称卷积,得到融合后的卷积,增强了模型在对数据集中的图像翻转和旋转的鲁棒性,同时将通道注意力特征和空间注意力特征融合提出获取特征位置信息的混合域注意力机制,提高了ResNet50网络对遥感图像目标对象特征的提取能力。
通过实验证明,本发明方法在UCMerced_LandUse数据及上总体分类精度为96.43%,在NWPU-RESISC45数据集上总体分类精度为92.71%,进而大大提高了基于特征提取的原始网络的分类效果。
附图说明
图1是现有技术残差学习单元原理图。
图2是ResNet50残差学习单元原理图。
图3是本发明融合后的3×3卷积原理图。
图4是本发明采用非对称卷积的残差学习单元原理图。
图5是现有技术SE模块原理图。
图6是SE-ResNet结构原理图。
图7是本发明SCAM模块原理图。
图8是本发明SCAM_ResNet结构原理图。
图9是UCMerced_LandUse数据集部分样本。
图10是NWPU-RESISC45数据集部分样本。
图11是UCMerced_LandUse数据集准确率和损失值随循环次数的变化结果。
图12是不同训练集占比的ResNet与AC_SCAM_ResNet50对比。
图13是NWPU-RESISC45数据集下实验二准确率和损失值随循环次数的变化结果。
图14是NWPU-RESISC45数据集下实验一准确率和损失值随循环次数的变化结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明包括以下步骤:
(1)、获取待提取特征的遥感图像数据;
(2)、生成基于ResNet50网络的第一神经网络模型;
(3)、基以第一神经网络模型生成第二神经网络模型;
(4)、将步骤(1)获取的遥感图像数据,送入至步骤(3)中的第二神经网络模型,经第二神经网络模型处理后提取得到遥感图像的特征。
本发明还公开了一种遥感图像特征提取***,该***可为计算机、服务器等任何具备处理器和存储器的电子***,存储器中存储有能够被处理器识别和运行的程序指令,程序指令包括第一子程序、第二子程序和第三子程序,处理器运行程序指令中第一子程序时执行所述步骤(1),处理器运行程序指令中第二子程序时执行所述步骤(2)、(3),处理器运行程序指令中第三子程序时执行步骤(4)。
本发明步骤(2)中,第一神经网络模型主要使用ResNet50网络结构来进行改进,ResNet50共有五个特征提取模块,第一个特征提取模块只有一个卷积层对输入进行提取,第二个特征提取模块包含由三个依次串联的残差学习单元构成的卷积层,第三个特征提取模块包含由四个依次串联的残差学习单元构成的卷积层,第四个特征提取模块包含由六个依次串联的残差学习单元构成的卷积层,第五个特征提取模块包含由三个依次串联的残差学习单元构成的卷积层。
对比ResNet34,ResNet50的残差学习单元发生了变化(如图2所示),每个残差学习单元由大小分别为1×1、3×3、1×1的三个卷积核串联构成,分别对应用于压缩维度、卷积处理和恢复维度。
在卷积的性质中有这样一条,如果几个具有兼容大小的二维内核在相同的输入上以相同的步幅运行以产生具有相同的输出,可以将这些内核在相应的位置上相加,获得将产生相同输出的等效内核。可见二维卷积核是可以进行相加的,即使是不同大小的卷积核。
所以Christian Szegedy在论文《Rethinking the inception architecture forcomputer vision》提出了可以通过1×n卷积和后面接一个n×1卷积替换任何n×n卷积,可以是参数计算量能节省,但精度却有明显的下降。
为了改善这一现象,本发明提出非对称卷积(Asymmetric Convolution)。在非对称卷积中,使用三个并联的n×n正方形卷积核,1×n水平卷积核和n×1垂直卷积核来替代n×n卷积,使用1×n和n×1卷积是为了增强模型在对数据集中的图像翻转和旋转的鲁棒性,这样组合不同层的输出来提高学习表示的质量。故在本发明ResNet50网络中使用非对称卷积,将每个残差学习单元中大小为3×3的卷积核,以3×3、1×3和3×1三个并联的卷积核来取代,得到融合后的3×3卷积,如图3所示。
并且,本发明步骤(1)中与标准的CNN做法类似,在每个残差学习单元中并联的卷积核之后加上批量归一化操作(Batch Normalization),3×3、1×3和3×1三个并联的卷积核的并联输出作为对特征进行提取,采用非对称卷积的残差学习单元如图4所示。
注意力机制(Attention Mechanism)的思想是让网络学会注意力,能够忽略无关信息关注重要信息,本质是对区域的加权,突出显著的区域。近几年来,深度学习与注意力机制结合的研究工作,大多数是集中于使用掩码(mask)来形成注意力机制。掩码的原理在于通过另一层新的权重,将图片数据中关键的特征标识出来,通过学习训练,让深度神经网络学到每一张新图片中需要关注的区域,也就形成了注意力。注意力机制可分为两类,一类是软注意力(soft attention),另一类是强注意力(hard attention)。软注意力的关键点在于,这种注意力更关注区域或者通道,而且软注意力是确定性的注意力,学习完成后直接可以通过网络生成。强注意力是更加关注点延伸出来的注意力,同时强注意力是一个随机的预测过程,更强调动态变化,训练过程往往是通过强化学习(reinforcement learning)来完成的。
目前热门的注意力机制有通道注意力模块(Channel Attention Module)、空间注意力模块(Spatial Attention Module)和混合域注意力模块(Mix Attention Module)。通道注意力就是对通道生成掩码,从而产生不同的权重,权重代表该通道与关键信息的相关度,权重越大表示相关度越高,也就是越需要去注意的通道了。代表作有SENet,SENet主要是通过显式地建模通道之间的相互依赖关系,学***均池化,而忽略每一个通道内的局部信息,这种做法其实也是比较暴力的行为。所以提出混合域注意力机制模型。代表作有CBAM(ConvolutionalBlock Attention Module),CBAM就是先后集成了通道注意力模块和空间注意力模块,来分别在通道和空间维度上学习关注什么、在哪里关注,强调空间和通道这两个维度上的有意义特征。
在SE-ResNet中,将SE模块嵌入到ResNet网络中,使用全局平均池化GAP(GlobalAverage Gap)作为Squeeze操作,也就是将H×W×C的输入转换为1×1×C的输出,这样能够获得全局的感受野。所以在给定输入X对其第C个通道的Squeeze操作的公式为:
Figure BDA0003122431510000071
公式(2)中,xc(i,j)为输入图像样本,Xc为输入图像的通道特征,W为特征维度,H为特征高度,Fsq为进行Squeeze操作。在Excitation操作中,使用两个全连接来输出和输入相同数目特征的权重,第一个全连接W1的维度是C/r*C,r是缩放参数,是为了减少通道个数从而降低计算量,随后接一下非线性的ReLU操作使得输出维度不变,然后第二个全连接W2的维度为C*C/r,因此输出的维度为1×1×C,最后经过Sigmoid激活函数得到的输出为:
s=Fex(zc,W)=σ(W2ReLU(W1zc)) (3)
公式(3)中,σ为Sigmoid激活函数,W1为第一个全连接层的维度,W2为第二个全连接层的维度,zc为经过Squeeze操作的输出,Fex为进行Excitation操作。
Excitation操作的输出表示了输入X中特征图的权重,这个权重是通过前面的全连接和ReLU操作得到的,因此可以端到端进行训练。最后的Scale操作就是对通道进行相乘,也就是:
Fscale(xc,s)=xc*s (4)
公式(4)中,xc为原始的输入图像样本,s为Excitation操作后的输出图像。SE模块图如图5所示,SE模块的灵活性使其可以嵌入到Inception或ResNet中,嵌入到ResNet网络得到SE_ResNet结构如图6所示。
虽然SE-ResNet考虑通过对通道关系进行建模来重新权衡每个通道的重要性,但其忽略了位置信息,因此本发明步骤(3)中对此进行了改进,在SE模块基础上提出一种新的混合域注意力机制模块SCAM(Split and Concat Attention Mechanism),由此得到第三神经网络,将特征图的准确位置信息融合到通道注意力中,这样可以增强对特征的表示,更准确地定位和识别特征,获取到要关注特征的准确位置信息。
本发明步骤(3)中,混合域注意力机制模块(以下简称SCAM)将本发明步骤(2)中对应残差学***方向和垂直方向将输入信息分别去聚合两个方向的特征图,所以水平方向的输出为
Figure BDA0003122431510000081
式中xc(h,i)为输入图像在水平方向映射的样本对象。垂直方向的输出为:
Figure BDA0003122431510000082
公式(5)、(6)中,xc(j,w)为输入图像在垂直方向映射的样本对象,W为特征水平方向的维度,H为特征垂直方向的高度。
紧接着将两个方向的特征图进行融合,跟SE模块一样使用两个全连接和非线性ReLU操作,输出为:
Ffc=W2ReLU(W1[zc(h),zc(w)]) (7)
公式(7)中的[zc(h),zc(w)]为特征融合操作,W1为第一个全连接层的维度,W2为第二个全连接层的维度。
随后将融合后的特征图分别沿着水平方向其维度Wh为C×H、垂直方向其维度Ww为W×C进行分解,并经过Sigmoid函数激活处理得到:
sw=σ(WwFfc) (8)
sh=σ(WhFfc) (9)
公式(8)、(9)中,σ均为Sigmoid激活函数,sw为融合后的特征图分解后垂直方向的输出,sh为融合后的特征图分解后水平方向的输出,Ww为垂直方向特征维度,Wh为水平方向特征维度。
最后进行的Scale操作输出为:
Fscale(xc,sw,sh)=xc*sw*sh (10)
公式(10)中,xc为原始的输入图像样本,sw为融合后的特征图分解后垂直方向的输出,sh为融合后的特征图分解后水平方向的输出。SCAM模块图如图7所示,嵌入到ResNet网络得到SCAM_ResNet结构如图8所示。
本发明实验及结果分析如下:
1、数据集
实验数据集采用遥感图像场景分类两大数据集UCMerced_LandUse和NWPU-RESISC45。UCMerced_LandUse中的数据选自美国地质调查局国家城市地图中的航空影像,包含农田、居民区、森林、油罐等21类场景,每类场景由100幅分辨率约为0.3m、大小为256×256像素的彩色影像组成,共计2100幅,图9为该数据集的部分样本示例。
NWPU-RESISC45数据集是西北工业大学创建的遥感图像场景分类可用基准,在UCMerced_LandUse数据集的基础上又增加了岛屿、船只、教堂、发电站等更加详细的场景,涵盖了45个场景类别,每个类别由大小为256×256像素、分辨率为从30m到0.2m不等的700张影像组成,共计31500幅,图10为该数据集的部分样本示例。NWPU-RESISC45比UCMerced_LandUse数据集,场景更加复杂,分类的难度和挑战更大。由图10可以看出,高分辨率遥感影像的场景类别多样,不同类别的场景影像具有较大的相似性,同一类别的影像具有较大的差异性,如根据居民区的建筑物的稠密程度分为稀疏居民区、中等住宅区、密集住宅区等,同一类别的森林、河流等的影像在颜色和纹理具有较大的差异性,飞机、油罐等场景类别中既包含只有单个目标的图像又包含存在多个目标的图像,以上这些因素增加了其分类的难度。
2、实验设置
试验平台为Intel(R)i7-7700HK处理器、32G运行内存,并利用NVIDIA TeslaP10016G显存加速运算,深度学习框架版本采用Pytorch1.4。在训练过程中采用Adam优化器,学习率设置为3e-4,损失函数采用交叉熵损失函数,训练次数为400,确保模型的可靠性。实验结果中的Loss曲线、准确率曲线均是由TensorBoard可视化得到的数据绘制而成,以此用来分析网络的收敛情况。
为了验证本发明算法的有效性,以及与其他论文结果进行对比,采用同等数据集划分方法。在UCMerced_LandUse数据集和NWPU-RESISC45数据集分别进行实验。在UCMerced_LandUse数据集上随机选取80%作为训练集,剩余20%作为测试集。由于NWPU-RESISC45数据集较为庞大,设置两类实验,实验一每类场景图像随机取10%作为训练集,剩余90%作为测试集;实验二每类场景图像随机取20%作为训练集,剩余80%作为测试集。
3、实验结果及分析
3.1 ResNet系列对比实验
在UCMerced_LandUse数据集和NWPU-RESISC45数据集上分别就ResNet34、ResNet50、ResNeSt、SENet-ResNet、加入非对称卷积的AC_ResNet50、SCAM_ResNet50以及AC_SCAM_ResNet50进行对比实验。实验结果如表1所示:
表1 ResNet系列网络在两大数据集的实验结果
Figure BDA0003122431510000101
在NWPU-RESISC45数据集下,本发明发现在两次实验中ResNet34精度均大幅度落后于其他网络,这是由于其网络层数较浅,对特征的提取能力较弱。AC_ResNet50比原始的ResNet50分别提高了0.42%和0.54%,这说明在对3*3卷积核进行非对称分解后是有效的。ResNeSt、SENet-ResNet均是在ResNet基础上加入了注意力机制,对遥感影像的特征提取能力均优于原始的ResNet,SCAM_ResNet50比ResNeSt分别提高了0.96%和0.68%,比SENet-ResNet分别提高了0.63%和0.46%,这说明在SE模块基础上加入了空间位置信息是有效的,获取特征的通道信息的同时还获取其准确的位置信息,对特征的提取更加全面。在融合两种改进的模块后,AC_SCAM_ResNet50网络的特征提取能力得到最大幅度的提升,分类精度达到90.4%和92.71%,比原始的ResNet50分别提高了2.68%和2.17%。
在UCMerced_LandUse数据集进行实验的过程中,发现ResNet34的精度并没有大幅度落后于ResNet50,这是因为UCMerced_LandUse数据集较小,网络层数的深浅对特征的提取能力影响有限,此时加深网络层数并不能对分类精度进行提高,甚至会出现过拟合。所以选择ResNet50进行实验,AC_ResNet50比原始的ResNet50提高了1.14%,这说明在改进的非对称卷积对小数据集进行分类时提升较大,这是由于改进的非对称卷积使得高低层的特征进行融合提高了网络的特征提取能力。SCAM_ResNet50比ResNeSt和SENet-ResNet分别提高了1.42%和0.85%,充分说明了混合的注意力机制比单一的注意力机制更加有效,特征提取能力更强。AC_SCAM_ResNet50比原始的ResNet50提高了3.19%,说明了本发明方法的改进是有效的。
3.2主流网络对比实验
为了更好的进行对比,加入了目前深度学习领域主流网络和相同数据集下文献结果来参与实验。在UCMerced_LandUse数据集下加入了经典的AlexNet和VGGNet,以及SegNet、U-Net和DeepLabV2,还有相同数据集下的文献如GBRCNN和SE-VGG16,分类结果如下表所示:
表2主流网络在UCMerced_LandUse数据集的实验结果
Figure BDA0003122431510000111
通过表2的结果可以看出,AC_SCAM_ResNet50比经典网络AlexNet和VGGNet在分类精度上分别提高了4.07%和3.21%,与SegNet、U-Net和DeepLabV2相比提高了3.81%、3.19%和3.05%,同GBRCNN和SE-VGG16相比提高了1.9%和6.98%。
在NWPU-RESISC45数据集下做实验二,也就是选取每类场景图像随机取20%作为训练集,剩余80%作为测试集。加入了DenseNet,FCN,以及DeepLabV3和AttentionU-Net,还有相同数据集下的文献如ECNN和ResNet101-CBAM,分类结果如下表所示:
表3主流网络在NWPU-RESISC45数据集的实验结果
Figure BDA0003122431510000121
通过表3结果可以看出AC_SCAM_ResNet50比经典网络DenseNet和FCN在分类精度上分别提高了2.55%和3.02%,与AttentionU-Net和DeepLabV3相比提高了2.32%和1.17%,同ECNN和ResNet101-CBAM相比提高了2.78%和0.21%。
在与主流网络进行对比的结果中,可以发现在改进的非对称卷积和加入能够获取特征的准确位置信息的注意力机制的ResNet50能够很大程度加强对遥感图像特征的提取能力,能够增强特征的表示,更好地实现场景分类。
3.3结果分析
为了更好的分析本发明方法在遥感图像场景分类中的有效性,图11展示了在两个实验数据集上准确率和损失值随循环次数的变化。
图11是在UCMerced_LandUse数据集下的准确率和损失值随循环次数的变化图,观察准确率曲线可以发现在通过约128次迭代后,分类精度趋于稳定,保持下93%上下,同时训练损失函数值也趋于稳定,在迭代387次后精度达到最佳为96.43%。
由于UCMerced_LandUse数据集类别数跟总数量较少,故为了比较在不同比例的训练集下的测试精度,将ResNet50和AC_SCAM_ResNet50分别进行实验,得到的结果绘制图如图12所示。从图12可以看出,在改进的ResNet50实验中,随着训练集的增加,测试精度在上升,10%到20%的提升格外明显,精度从69%到81.37%,训练集比例为50%时,AC_SCAM_ResNet50精度就已经达到91.34%,训练集比例为80%达到最高,但随着训练集的再次增加到90%时,精度却下降了1.91%,在ResNet50实验中也有相同的现象,这是因为此时产生了过拟合,过少的测试集中的样本产生的干扰所导致的。
图13是在NWPU-RESISC45数据集下实验二的准确率和损失值随循环次数的变化图,观察曲线可以发现准确率曲线可以发现在通过约99次迭代后,分类精度趋于稳定,保持下91%上下,同时训练损失函数值也趋于稳定,在迭代368次后精度达到最佳为92.71%。
图14是在NWPU-RESISC45数据集下实验一的准确率和损失值随循环次数的变化图,观察曲线可以发现准确率曲线可以发现在通过约60次迭代后,分类精度趋于稳定,保持下88%上下,同时训练损失函数值也趋于稳定,在迭代360次后精度达到最佳为90.4%。
本发明方法改进下的ResNet50在两个数据集的实验中,测试数据集的准确率均能取得很好的效果,所以在遥感图像场景分类中融合改进的非对称卷积和注意力机制的ResNet网络是有效的。
本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中工程技术人员对本发明的技术方案作出的各种变型和改进,均应落入本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。

Claims (6)

1.融合非对称卷积和注意力机制的遥感图像特征提取方法,其特征在于,包括以下步骤:
(1)、获取待提取特征的遥感图像数据;
(2)、生成第一神经网络模型,所述第一神经网络模型的网络架构采用包含五个依次串联的特征提取模块的ResNet50,其中第一个特征提取模块包括一个卷积层,第二个特征提取模块包括三个依次串联的残差学习单元构成的卷积层,第三个特征提取模块包括四个依次串联的残差学习单元构成的卷积层,第四个特征提取模块包括六个依次串联的残差学习单元构成的卷积层,第五个特征提取模块包括三个依次串联的残差学习单元构成的卷积层;
每个残差学习单元分别包括三个依次串联的卷积核子单元,其中第一个卷积核子单元是大小为1×1的卷积核;第二个卷积核子单元由大小为3×3、1×3、3×1共三个卷积核并联构成;第三个卷积核子单元是大小为1×1的卷积核;每个残差学习单元中分别依次由第一个卷积核子单元进行压缩维度、第二个卷积核子单元进行卷积处理、第三个卷积核子单元进行恢复维度;
(3)、向步骤(2)生成的第一神经网络模型中每个残差学习单元的输出分别连接混合域注意力机制模块,得到第二神经网络模型;混合域注意力机制模块包括特征图提取子模块、融合子模块、分解子模块、Sigmoid激活函数子模块、Scale操作子模块,其中:
所述特征图提取子模块从对应的残差学***和垂直两个方向的特征图;
所述融合子模块对水平和垂直方向的特征图进行特征融合,得到融合结果;
所述分解子模块将融合结果按水平方向的维度和垂直方向的维度进行分解,得到水平方向和垂直方向的分解结果;
所述Sigmoid激活函数子模块对水平方向和垂直方向的分解结果进行激活处理;
所述Scale操作子模块对Sigmoid激活函数子模块的激活处理结果进行Scale操作;
(4)、将步骤(1)获取的遥感图像数据,送入至步骤(3)中的第二神经网络模型,经第二神经网络模型处理后提取得到遥感图像的特征。
2.根据权利要求1所述的融合非对称卷积和注意力机制的遥感图像特征提取方法,其特征在于,每个残差学习单元的第二个卷积核子单元中,三个并联的卷积核输出进行批量归一化处理后进行相加,作为第二个卷积核子单元的输出。
3.根据权利要求1所述的融合非对称卷积和注意力机制的遥感图像特征提取方法,其特征在于,步骤(3)所述的混合域注意力机制模块中,特征图提取子模块将残差学***、垂直两个方向上一维的特征张量,并对两个一维的特征张量进行全局池化操作,以沿着水平方向和垂直方向分别进行聚合,得到对应方向的一维的特征图。
4.根据权利要求1所述的融合非对称卷积和注意力机制的遥感图像特征提取方法,其特征在于,步骤(3)所述的混合域注意力机制模块中,融合子模块采用两个全连接和非线性ReLU操作,对水平和垂直方向的特征图进行处理,使水平和垂直方向的特征图进行特征融合。
5.一种遥感图像特征提取***,包括处理器和存储器,所述存储器中存储有能够被处理器识别和运行的程序指令,其特征在于,所述处理器运行程序指令时执行权利要求1所述的遥感图像特征提取方法。
6.根据权利要求5所述的一种遥感图像特征提取***,其特征在于,所述程序指令包括第一子程序、第二子程序和第三子程序,所述处理器运行程序指令中第一子程序时执行所述步骤(1),所述处理器运行程序指令中第二子程序时执行所述步骤(2)、(3),所述处理器运行程序指令中第三子程序时执行所述步骤(4)。
CN202110679806.8A 2021-06-18 2021-06-18 融合非对称卷积和注意力机制的遥感图像特征提取方法 Pending CN113361546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110679806.8A CN113361546A (zh) 2021-06-18 2021-06-18 融合非对称卷积和注意力机制的遥感图像特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110679806.8A CN113361546A (zh) 2021-06-18 2021-06-18 融合非对称卷积和注意力机制的遥感图像特征提取方法

Publications (1)

Publication Number Publication Date
CN113361546A true CN113361546A (zh) 2021-09-07

Family

ID=77535146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110679806.8A Pending CN113361546A (zh) 2021-06-18 2021-06-18 融合非对称卷积和注意力机制的遥感图像特征提取方法

Country Status (1)

Country Link
CN (1) CN113361546A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838064A (zh) * 2021-09-23 2021-12-24 哈尔滨工程大学 一种基于分支gan使用多时相遥感数据的云去除方法
CN114565860A (zh) * 2022-03-01 2022-05-31 安徽大学 一种多维度增强学习合成孔径雷达图像目标检测方法
CN114723760A (zh) * 2022-05-19 2022-07-08 北京世纪好未来教育科技有限公司 人像分割模型的训练方法、装置及人像分割方法、装置
CN116543216A (zh) * 2023-05-10 2023-08-04 北京建筑大学 细粒度图像分类优化方法及***
CN117494765A (zh) * 2023-10-23 2024-02-02 昆明理工大学 一种超高空间分辨率遥感图像变化检测孪生网络及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726748A (zh) * 2018-12-21 2019-05-07 长沙理工大学 一种基于频带特征融合的gl-cnn遥感图像场景分类方法
CN110674741A (zh) * 2019-09-24 2020-01-10 广西师范大学 一种基于双通道特征融合的机器视觉中手势识别方法
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
CN111523521A (zh) * 2020-06-18 2020-08-11 西安电子科技大学 一种双支路融合多尺度注意神经网络的遥感图像分类方法
CN111754988A (zh) * 2020-06-23 2020-10-09 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN111767800A (zh) * 2020-06-02 2020-10-13 华南师范大学 遥感影像场景分类得分融合方法、***、设备及存储介质
CN112017116A (zh) * 2020-07-23 2020-12-01 西北大学 基于非对称卷积的图像超分辨率重建网络及其构建方法
CN112767251A (zh) * 2021-01-20 2021-05-07 重庆邮电大学 基于多尺度细节特征融合神经网络的图像超分辨率方法
CN112861978A (zh) * 2021-02-20 2021-05-28 齐齐哈尔大学 一种基于注意力机制的多分支特征融合遥感场景图像分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726748A (zh) * 2018-12-21 2019-05-07 长沙理工大学 一种基于频带特征融合的gl-cnn遥感图像场景分类方法
CN110674741A (zh) * 2019-09-24 2020-01-10 广西师范大学 一种基于双通道特征融合的机器视觉中手势识别方法
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
CN111767800A (zh) * 2020-06-02 2020-10-13 华南师范大学 遥感影像场景分类得分融合方法、***、设备及存储介质
CN111523521A (zh) * 2020-06-18 2020-08-11 西安电子科技大学 一种双支路融合多尺度注意神经网络的遥感图像分类方法
CN111754988A (zh) * 2020-06-23 2020-10-09 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN112017116A (zh) * 2020-07-23 2020-12-01 西北大学 基于非对称卷积的图像超分辨率重建网络及其构建方法
CN112767251A (zh) * 2021-01-20 2021-05-07 重庆邮电大学 基于多尺度细节特征融合神经网络的图像超分辨率方法
CN112861978A (zh) * 2021-02-20 2021-05-28 齐齐哈尔大学 一种基于注意力机制的多分支特征融合遥感场景图像分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DONGHANG YU 等: "Hierarchical Attention and Bilinear Fusion for Remote Sensing Image Scene Classfication", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》 *
QIBIN HOU 等: "Coordinate Attention for Efficient Mobile Network Design", 《ARXIV:2103.02907V1》 *
RUI LI 等: "MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed Images", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》 *
张晋: "基于局部感知的场景图像识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李红艳 等: "注意力机制改进卷积神经网络的遥感图像目标检测", 《中国图象图形学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838064A (zh) * 2021-09-23 2021-12-24 哈尔滨工程大学 一种基于分支gan使用多时相遥感数据的云去除方法
CN113838064B (zh) * 2021-09-23 2023-12-22 哈尔滨工程大学 一种基于分支gan使用多时相遥感数据的云去除方法
CN114565860A (zh) * 2022-03-01 2022-05-31 安徽大学 一种多维度增强学习合成孔径雷达图像目标检测方法
CN114723760A (zh) * 2022-05-19 2022-07-08 北京世纪好未来教育科技有限公司 人像分割模型的训练方法、装置及人像分割方法、装置
CN114723760B (zh) * 2022-05-19 2022-08-23 北京世纪好未来教育科技有限公司 人像分割模型的训练方法、装置及人像分割方法、装置
CN116543216A (zh) * 2023-05-10 2023-08-04 北京建筑大学 细粒度图像分类优化方法及***
CN117494765A (zh) * 2023-10-23 2024-02-02 昆明理工大学 一种超高空间分辨率遥感图像变化检测孪生网络及方法

Similar Documents

Publication Publication Date Title
CN113361546A (zh) 融合非对称卷积和注意力机制的遥感图像特征提取方法
Chen et al. The face image super-resolution algorithm based on combined representation learning
CN111199214B (zh) 一种残差网络多光谱图像地物分类方法
Huang et al. Multiple attention Siamese network for high-resolution image change detection
CN112991278B (zh) RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及***
Chen et al. SNIS: A signal noise separation-based network for post-processed image forgery detection
CN112257741B (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN112836637B (zh) 一种基于空间逆向注意网络的行人重识别方法
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN113191390A (zh) 一种图像分类模型的构建方法、图像分类方法及存储介质
CN115546032A (zh) 一种基于特征融合与注意力机制的单帧图像超分辨率方法
CN117095287A (zh) 一种基于时空交互Transformer模型的遥感图像变化检测方法
Chen et al. Geo-defakehop: High-performance geographic fake image detection
CN114612476A (zh) 一种基于全分辨率混合注意力机制的图像篡改检测方法
Chen et al. Intra-and inter-reasoning graph convolutional network for saliency prediction on 360° images
Chen et al. A robust object segmentation network for underwater scenes
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
CN111985487A (zh) 一种遥感影像目标提取方法、电子设备及存储介质
CN116311434A (zh) 人脸伪造检测方法、装置、电子设备及存储介质
CN116844039A (zh) 一种联合多注意的跨尺度遥感图像耕地提取方法
Nguyen et al. A novel multi-branch wavelet neural network for sparse representation based object classification
CN117036368A (zh) 图像数据处理方法、装置、计算机设备和存储介质
Guo et al. CSARUNet: an attention mechanism-based model for image tampering localization with ringed residual block

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210907

WD01 Invention patent application deemed withdrawn after publication