CN112084868B - 一种基于注意力机制的遥感图像中目标计数方法 - Google Patents

一种基于注意力机制的遥感图像中目标计数方法 Download PDF

Info

Publication number
CN112084868B
CN112084868B CN202010794525.2A CN202010794525A CN112084868B CN 112084868 B CN112084868 B CN 112084868B CN 202010794525 A CN202010794525 A CN 202010794525A CN 112084868 B CN112084868 B CN 112084868B
Authority
CN
China
Prior art keywords
feature map
convolution
channel
size
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010794525.2A
Other languages
English (en)
Other versions
CN112084868A (zh
Inventor
刘庆杰
高广帅
王蕴红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010794525.2A priority Critical patent/CN112084868B/zh
Publication of CN112084868A publication Critical patent/CN112084868A/zh
Application granted granted Critical
Publication of CN112084868B publication Critical patent/CN112084868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的遥感图像中目标计数方法,在VGG16的基础上融合了注意力机制,尺度金字塔和可变形卷积的特性,由三个级联的阶段组成:前端网络的特征提取,中端网络的尺度融合以及后端网络的密度图的生成。通过本发明的技术方案,能够很好地解决遥感图像中密集目标计数任务中存在的目标尺度多样性、复杂混乱的背景干扰以及目标方向任意性的问题。

Description

一种基于注意力机制的遥感图像中目标计数方法
技术领域
本发明属于遥感图像技术领域,尤其涉及一种基于注意力机制的遥感图像中目标计数方法。
背景技术
近几十年来,随着国家安防和城市规划等各方面的需要,估计复杂场景中目标的数目越来越受到关注。因此,已经有很多的工作用到各个领域的目标计数上,例如监控视频中的人群计数,显微镜下的细胞计数,生态研究的动物计数,车辆计数和环境研究中的目标计数。
尽管目标计数在各个领域进步很大,但是在遥感领域中还很少涉及。除了一些很少的场景,例如棕榈树或者橄榄树的计数,无人机拍摄图片中的车辆计数。但是,遥感图像中主要的地物目标,比如建筑物,船只等,没有受到过多的关注。因此,对这些目标进行计数能够有很多的实际意义,比如城市规划,环境控制,数字城市模型构建和对灾难的应对方案规划等。
相比于其他领域的目标计数,遥感图像的目标计数存在以下几个挑战:1)尺度多样性:遥感图像中的目标尺度变化不一,例如同一张图片中的尺寸从几个像素到千级像素不等;2)背景复杂多样:遥感图像中通常同时存在多种地物目标,特别当目标的尺寸很小的情况下,复杂混乱的背景干扰大大限制了目标的检测和计数;3)方向任意性:不同于自然场景图片中的目标,例如行人是直立的,由于星载或机载传感器俯拍视角的原因,遥感图像中的目标具有任意的方向。
VGG名称来源于牛津大学科学工程系的视频几何组(Visual Geometry Group),其发布了一系列以VGG开头的卷积网络模型,可以应用在人脸识别、图像分类等方面,分别从VGG11~VGG19。VGG研究卷积网络深度的初衷是为了探寻卷积网络深度是如何影响大规模图像分类与识别的精度和准确率的,VGG在加深网络层数的同时为了避免参数过多,在所有层都采用3x3的小卷积核,卷积层步长被设置为1。VGG的输入被设置为224x244大小的RGB图像,在训练集图像上对所有图像计算RGB均值,然后把图像作为输入传入VGG卷积网络,使用3x3或者1x1的filter,卷积步长被固定1。 VGG全连接层有3层,根据卷积层+全连接层总数目的不同可以从VGG11~VGG19,最少的VGG11有8个卷积层与3个全连接层,最多的VGG19有16个卷积层+3个全连接层,此外VGG网络并不是在每个卷积层后面跟上一个池化层,总共有5个池化层,分布在不同的卷积层之下。VGG16最初应用在图像分类任务上,因其简洁性和实用性等特点,迅速成为当时最流行的卷积神经网络模型,现在也常被应用于各种计算机视觉任务中。
发明内容
为了解决遥感图像中密集目标计数任务中存在的数据集稀缺、目标尺度多样性、复杂混乱的背景干扰以及目标方向任意性的问题,本发明提出一种基于注意力机制的遥感图像中目标计数方法,在VGG16网络结构基础上融合了注意力机制(attentionmechanism),尺度金字塔(scale pyramid)和可变形卷积(deformable convolution) 的特性,简称为ASPDNet,由三个级联的阶段组成:前端网络的特征提取,中端网络的尺度融合以及后端网络的密度图的生成。本发明的具体技术方案如下:
一种基于注意力机制的遥感图像中目标计数方法,其特征在于,包括在VGG16 网络结构基础上,对输入图像进行以下三个级联阶段的处理:
S1:前端网络的特征提取;
对输入图像,取VGG16网络结构的前10层操作,随后融合卷积块注意力模块,即将通道注意力模块和空间注意力模块连接的操作,用来编码特征图通道及像素位置之间的相关性;
S2:中端网络的多尺度融合;
引入尺度金字塔模块,级联膨胀率分别为2,4,8,12的空洞卷积,捕获更多的多尺度信息和细节信息;
S3:后端网络的密度图的生成;
采用三层卷积核为3×3的可变形卷积,每层之后都有一层修正线性单元ReLU激活函数,最后添加一个1×1的卷积层用来生成密度图;
S4:将步骤S3的密度图的所有像素求和得到最终的目标数量。
本发明的有益效果在于:
1.前端网络是以VGG16网络结构的前10层为主干网络,随后添加注意力模块,能够突出更感兴趣的目标区域突出出来,复杂的背景区域被抑制,能够很好地解决遥感图像中复杂混乱的背景干扰的问题。
2.在网络的中端引入尺度金字塔模块,在不增加参数量的情况下,捕获对应不同感受野的多尺度信息,从而能够很好的解决尺度多样性的问题。
3.后端网络中采用三层可变形卷积,卷积中学习的偏置能够很好地覆盖目标,从而能够很好的解决遥感图像中目标任意性的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明的网络结构流程图;
图2(a)是通道注意力模块结构图;
图2(b)是空间注意力模块结构图;
图3是尺度金字塔模块示意图;
图4是可变形卷积原理图;
图5(a)是标准卷积位置采样可视图;
图5(b)是可变形卷积位置采样可视图;
图6(a)是建筑物图片;
图6(b)是建筑物真实的密度图及计数结果;
图6(c)是本发明的方法得到的建筑物密度图及计数结果;
图7(a)是小车的图片;
图7(b)是小车真实的密度图及计数结果;
图7(c)是本发明的方法得到小车的密度图及计数结果;
图8(a)是大型车辆的图片;
图8(b)是大型车辆真实的密度图及技术结果;
图8(c)是本发明的方法得到的大型车辆的密度图及计数结果;
图9(a)是船只的图片;
图9(b)是船只真实的密度图及计数结果;
图9(c)是本发明的方法得到的船只的密度图及计数结果。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明旨在精确估计遥感图像中密集目标的数目,例如连片密集的房屋,停泊在港口的船只,停在停车场的小车或者大型货车等。
针对要解决的技术问题,本发明构建了一个基于密度估计的目标计数的卷积神经网络框架,在VGG16网络结构基础上融合了注意力机制(通道注意力和空间注意力模块连接的形式)模块,尺度金字塔模块和可变形卷积模块等技术,具体地,主要由三个级联的阶段组成:前端网络的特征提取,中端网络的尺度融合以及后端网络的密度图的生成,最后,对密度图中所有像素进行求和,即可计算出遥感图像中目标的数目。具体的网络流程图如图1所示。
前端网络是以VGG16网络结构的前10层为主干网络,添加注意力模块,充分考虑特征图通道之间和像素位置之间的相关性,提取丰富的语义信息和上下文信息,从而能够突出更感兴趣的目标区域突出出来,复杂的背景区域被抑制,能够很好地解决遥感图像中复杂混乱的背景干扰的问题。
由于在网络中应用到三层最大池化层,图像的分辨率会降低到原始图像的1/64,为了扩大特征图的感受野,在网络的中端引入尺度金字塔模块(scale pyramid module,SPM),即将四个平行的不同膨胀因子的空洞卷积连接起来,SPM的作用是在不增加参数量的情况下,捕获对应不同感受野的多尺度信息,从而能够很好的解决尺度多样性的问题。
后端网络中采用三层可变形卷积(deformable convolution),可变形卷积操作就是在原始标准的卷积上增加一个可学习的偏置,得益于可变形卷积中的自适应位置采样技术,卷积中学习的偏置能够很好地覆盖目标,从而能够很好的解决遥感图像中目标任意性的问题,在网络的最后一层用一个1×1的卷积层,从而生成密度图,最后将密度图的所有像素进行求和从而获得目标的数量。具体地,
1.前端网络的特征提取
给定一幅任意尺寸的遥感图片,以VGG16网络结构作为主干网络,取VGG16网络结构的前10层操作,然后添加卷积块注意力模块,是一个连接通道注意力模块 (channelattention module,CAM)和空间注意力的模块(spatial attention module, SAM)的操作,用来编码特征图通道及像素位置之间的相关性,以此来采集更为主要的特征的信息,从而达到突出目标并且抑制复杂混乱背景的目的。
通道注意力模块:在密集的场景中,前景目标与背景的纹理很相似,使得计数很困难,融入通道注意力模块能够减轻这个问题,通道注意力模块的结构体系如图2(a) 所示。具体地,对于任意一个中间层的特征图表示为
Figure BDA0002625051970000058
其中,
Figure BDA0002625051970000059
表示实数空间,C表示特征图的通道,H和W分别表示特征图的高和宽,首先,对特征图执行一个1×1的卷积操作,然后通过变形和转置获得两个特征图C1和C2;接下来,将C1和 C2相乘并执行归一化指数(softmax)操作,获得尺寸为C×C的通道注意图Ca。特别地,这个过程表示为:
Figure BDA0002625051970000051
其中,
Figure BDA0002625051970000052
表示通道注意图上第i个通道对第j个通道的影响,
Figure BDA0002625051970000053
为对原始特征图先经过1×1卷积后再变形为尺寸为 C×HW的特征图的第i个通道,
Figure BDA0002625051970000054
为原始特征图先经过1×1卷积后再变形转置为尺寸为HW×C的特征图的第j个通道,最后经过通道注意力模块加权的尺寸为 C×H×W的特征图计算:
Figure BDA0002625051970000055
其中,λ是一个可学习的参数,可以通过1×1的卷积操作学习得到,
Figure BDA0002625051970000056
为最后经过通道注意力模块加权后的特征图的第j个通道,
Figure BDA0002625051970000057
为对原始特征图先经过1×1卷积后再变形为尺寸为C×HW的特征图的第i个通道,Fj为原始的特征图的第j个通道。
空间注意力模块:考虑到特征图在不同的像素位置上有不同的密度,进一步对空间维度上长范围的依赖性进行编码,从而对空间位置上的特征信息编码很有效。空间注意力模块与上述的通道注意力模块相似,具体的网络架构如图2(b)所示。但是,两者有不同之处:1)相比于通道注意力模块只有一个1×1的卷积层,空间注意力模块需要三个;2)相比于通道注意图Ca的尺寸为C×C,空间注意图Sa的尺寸为HW×HW。特别地,
Figure BDA0002625051970000061
其中,
Figure BDA0002625051970000062
表示第k个位置对第l个位置的影响,
Figure BDA0002625051970000063
为原始特征图先经过1×1卷积后再变形为尺寸为C×HW的特征图的第 k个位置,
Figure BDA0002625051970000064
为原始特征图先经过1×1卷积后再变形转置为尺寸为HW×C的特征图的第l个位置,最后经过空间注意力模块加权的尺寸为C×H×W的特征图计算如下:
Figure BDA0002625051970000065
其中,μ是一个可学习的参数,可以通过1×1的卷积操作学习得到,
Figure BDA0002625051970000066
为最终经过空间注意力模块加权的特征图的第l个位置,
Figure BDA0002625051970000067
为原始特征图先经过1×1卷积后再变形为尺寸为C×HW的特征图的第k个位置,Fl为原始特征图的第l个位置。
2.中端网络的多尺度融合
因为在前端网络中存在三层的池化层操作,输出特征图的尺寸是原始尺寸的 1/64。为了在保持分辨率不变的同时增大特征图的感受野,引入如图3所示的尺度金字塔模块,即级联几个不同膨胀率的空洞卷积的操作。空洞卷积的作用就是在不增加参数量和复杂度的前提下,增大了特征图的感受野,而不同的膨胀率对应不同大小的感受野。在本发明的方法中,设定级联的空洞卷积数目为4,采用的膨胀率分别为 2,4,8,12,通过尺度金字塔模块操作,能够捕获更多的多尺度信息和细节信息,从而提升了模型对尺度变化的鲁棒性。
3.后端网络的密度图的生成
在后端网络中,采用三层可变形卷积操作来解决遥感图像中目标方向任意性的问题,最后添加一个1×1的卷积层用来生成密度图。
可变形卷积(deformable convolution)操作,相比于标准卷积,就是在特征图的感受野的每个像素点上增加一个大小可以学习的偏置。学习这个偏置的作用就是无论目标的形状如何变化,卷积层都能够覆盖到整个目标。可变形卷积的原理图和具体的位置采样的可视图由图4、图5(a)和图5(b)所示。
对于一个标准的卷积,给定一个采样点的位置pm,对于一个卷积核为3×3,膨胀率为1的卷积,
Figure BDA0002625051970000068
为规则采样点的集合,位置p的输出特征图
Figure BDA0002625051970000071
其中,w表示加权的参数,x表示输入的特征图,
Figure BDA0002625051970000072
表示第m个采样点,M为采样点的总数。相比于标准卷积,可变形卷积就是在此基础上增加一个可通过训练优化得到一个可以自适应学习的偏置Δpm,对于可变形卷积,特征图
Figure BDA0002625051970000073
具体地,采用三层卷积核为3×3的可变形卷积,每层之后都有一层修正线性单元 (Rectified Linear Unit,ReLU)激活函数。通过这种可变形卷积中的动态采样的策略,遥感图像中由于俯视视角导致的目标方向任意性能够得到很好的解决。在网络的最后,加上一层1×1的卷积层用来生成密度图。将密度图的所有像素求和就可以得到最终的目标数量。
本发明的方法是从输入图片估计出密度图来进行目标的数目统计,因此,需要预先将带有人为标定目标中心位置的遥感图片转变成真值密度图,再进行训练。在对整个网络的训练中,为了评估经网路所估计到的密度图与真值密度图之间的差异,需要对目标函数(损失函数)进行优化。最后,在测试阶段,为了评估本发明的方法的有效性,采用经典的评价指标对所提方法进行评估。具体地,
关于真值密度图的生成:假设像素位置为xn(目标中心坐标)的一个目标,能够用一个脉冲函数δ(x-xn)表示,对于一幅含有N个目标的图像,则可以表示为:
Figure BDA0002625051970000074
为了产生密度图F,将H(x)与高斯核进行卷积,即
Figure BDA0002625051970000075
其中,H(x)为表示含有N个目标的图像的函数,F(x)为真值密度图函数,
Figure BDA0002625051970000076
为方差为σn的高斯函数,n表示第n个目标,σn表示标准差,设定固定核σn=15。
关于损失函数:采用欧式距离函数作为评估预测密度图和真值密度图之间的差异的损失函数,损失函数
Figure BDA0002625051970000077
其中,B表示批量大小,Xb表示输入图片,b表示第b幅图像,Θ表示训练的参数,F(Xb;Θ)和
Figure BDA0002625051970000078
分别表示估计的密度图和对应的真值密度图。
为了评估本发明方法的有效性,采用两个评价指标来进行评估:平均绝对误差(Mean Absolute Error,MAE)和均方误差(Mean Squared Error,MSE),MAE评价模型的准确性,MSE用来评测模型的鲁棒性。两个指标的定义为:
Figure BDA0002625051970000081
其中,T表示测试样本的数目,t为第t幅图像,
Figure BDA0002625051970000082
Figure BDA0002625051970000083
分别表示估计的目标数和真实的目标数。为了方便理解本发明的上述技术方案,以下通过具体实施例对本发明的上述技术方案进行详细说明。
实施例1
在包含3057幅图片,由建筑物、小车、大型货车、船只4类目标组成的数据集上验证本发明提出的方法,数据集的具体数据统计可见表1。
表1 验证本发明所使用的数据集信息统计
Figure BDA0002625051970000084
如图6(a)-图6(c),图7(a)-图7(c),图8(a)-图8(c),图9(a)- 图9(c),本发明的模型是端到端进行训练的,网络的前10层是在VGG16网络结构进行精调的,其他卷积层的参数采用0.01的标准偏差的高斯初始化。在训练期间,采用随机梯度下降(stochasticgradient descent,SGD),学习率设定为1e-5。对于建筑物数据集,采用批量大小为32,经过400个周期直至训练收敛;对于其他三类,即船只、小车和大型车辆数据集的,采用批量大小为1,同样历经400个周期进行训练。
为了扩增训练集,在图片的不同位置裁剪9块图像块,每块的尺寸为原始图片的1/4,前4块是不重叠的图像块,后五块是随机位置进行裁剪的,然后将这些块进行水平翻转。因为船只、小车和大型车辆数据集的图片的分辨率比其他常规数据集的图片大,很容易导致显卡内存不足。因此,在数据增强之前,先将这些图片的尺寸固定为1024×768。模型是用pytorch编写,在NVIDIA GTX 2080Ti GPU上进行实验。
为了验证模型每个模块的有效性,在建筑物数据集上进行消融实验。实验过程包括基准实验和连续在此基础上添加三个模块:
● 基准实验:采用CSRNet作为基准方法(前端网络以VGG16网络结构为主干网络,后端网络采用6层膨胀因子为2的卷积层);
● 基准+注意力模块:在基准方法的基础上,添加连接通道注意力机制和空间注意力机制的模块;
● 基准+注意力模块+尺度金字塔模块:在前面基础上添加尺度金字塔模块;
● 基准+注意力模块+尺度金字塔模块+可变形卷积模块:本发明提出的方法。
消融实验的结果如表2所示,从表中可知,本发明的网络中的每个模块对性能的提升都有一定的贡献。具体地,原始的基准方法在数据集上表现并不是很理想,添加上注意力模块后,采集特征图全局和局部的依赖信息,使得性能有了一定的提升;再添加上尺度金字塔模块后,性能得到进一步的提升;最后,融合可变形卷积后,本发明提出的模型在数据集上表现出最优的性能。
表2 在建筑物数据集上的消融实验
Figure BDA0002625051970000091
表3为本发明的方法与其他方法的结果对比。这些方法包括:MCNN、CMTL、CSRNet、SFCN、SANet、SPN、SCAR。从表中发现,本发明的方法在构建的遥感目标计数数据上表现出最优的结果,同时也说明本发明的方法具有良好的泛化能力。
表3 本发明的方法与其他方法的对比
Figure BDA0002625051970000092
Figure BDA0002625051970000101
在本发明中,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于注意力机制的遥感图像中目标计数方法,其特征在于,包括在VGG16网络结构基础上,对输入图像进行以下三个级联阶段的处理:
S1:前端网络的特征提取;
对输入图像,取VGG16网络结构的前10层操作,随后融合卷积块注意力模块,即将通道注意力模块和空间注意力模块连接的操作,用来编码特征图通道及像素位置之间的相关性;
所述通道注意力模块的结构体系如下:对于任意一个中间层的特征图表示为
Figure FDA0003779434320000011
其中,
Figure FDA0003779434320000012
表示实数空间,C表示特征图的通道,H和W分别表示特征图的高和宽,首先,对特征图执行一个1×1的卷积操作,然后通过变形和转置获得两个特征图C1和C2;接下来,将C1和C2相乘并执行归一化指数操作,获得尺寸为C×C的通道注意图Ca,即
Figure FDA0003779434320000013
其中,
Figure FDA0003779434320000014
表示通道注意图上第i个通道对第j个通道的影响,
Figure FDA0003779434320000015
为对原始特征图先经过1×1卷积后再变形为尺寸为C×HW的特征图的第i个通道,
Figure FDA0003779434320000016
为原始特征图先经过1×1卷积后再变形转置为尺寸为HW×C的特征图的第j个通道,最后经过通道注意力模块加权的尺寸为C×H×W的特征图计算:
Figure FDA0003779434320000017
其中,λ是一个可学习的参数,通过1×1的卷积操作学习得到,
Figure FDA0003779434320000018
为最后经过通道注意力模块加权后的特征图的第j个通道,
Figure FDA0003779434320000019
为对原始特征图先经过1×1卷积后再变形为尺寸为C×HW的特征图的第i个通道,Fj为原始的特征图的第j个通道;
所述空间注意力模块的网络架构如下:首先,对特征图执行三个1×1的卷积操作,然后通过变形和转置获得两个特征图S1和S2;接下来,将S1和S2相乘并执行归一化指数操作,获得尺寸为HW×HW的通道注意图Sa,即
Figure FDA00037794343200000110
其中,
Figure FDA00037794343200000111
表示第k个位置对第l个位置的影响,
Figure FDA00037794343200000112
为原始特征图先经过1×1卷积后再变形为尺寸为C×HW的特征图的第k个位置,
Figure FDA00037794343200000113
为原始特征图先经过1×1卷积后再变形转置为尺寸为HW×C的特征图的第l个位置,最后经过空间注意力模块加权的尺寸为C×H×W的特征图计算如下:
Figure FDA00037794343200000114
其中,μ是一个可学习的参数,通过1×1的卷积操作学习得到,
Figure FDA00037794343200000115
为最终经过空间注意力模块加权的特征图的第l个位置,
Figure FDA0003779434320000021
为原始特征图先经过1×1卷积后再变形为尺寸为C×HW的特征图的第k个位置,Fl为原始特征图的第l个位置;
S2:中端网络的多尺度融合;
引入尺度金字塔模块,级联膨胀率分别为2,4,8,12的空洞卷积,捕获更多的多尺度信息和细节信息;
S3:后端网络的密度图的生成;
采用三层卷积核为3×3的可变形卷积,每层之后都有一层修正线性单元ReLU激活函数,最后添加一个1×1的卷积层用来生成密度图;
其中,对于一个采样点的位置pm,对于一个卷积核为3×3,膨胀率为1的可变形卷积,
Figure FDA0003779434320000022
Figure FDA0003779434320000023
为规则采样点的集合,位置p的输出特征图
Figure FDA0003779434320000024
其中,w表示加权的参数,x表示输入的特征图,m=1,L,M,
Figure FDA0003779434320000025
表示第m个采样点,M为采样点的总数,Δpm为可通过训练优化得到的可自适应学习的偏置;
S4:将步骤S3的密度图的所有像素求和得到最终的目标数量。
CN202010794525.2A 2020-08-10 2020-08-10 一种基于注意力机制的遥感图像中目标计数方法 Active CN112084868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010794525.2A CN112084868B (zh) 2020-08-10 2020-08-10 一种基于注意力机制的遥感图像中目标计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010794525.2A CN112084868B (zh) 2020-08-10 2020-08-10 一种基于注意力机制的遥感图像中目标计数方法

Publications (2)

Publication Number Publication Date
CN112084868A CN112084868A (zh) 2020-12-15
CN112084868B true CN112084868B (zh) 2022-12-23

Family

ID=73736164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010794525.2A Active CN112084868B (zh) 2020-08-10 2020-08-10 一种基于注意力机制的遥感图像中目标计数方法

Country Status (1)

Country Link
CN (1) CN112084868B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541459A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于多尺度感知注意力网络的人群计数方法及***
CN112598059B (zh) * 2020-12-22 2024-07-12 深圳集智数字科技有限公司 一种工人着装检测方法、装置、存储介质及电子设备
CN112766123B (zh) * 2021-01-11 2022-07-22 山东师范大学 一种基于纵横交叉注意力网络的人群计数方法及***
CN112926480B (zh) * 2021-03-05 2023-01-31 山东大学 一种面向多尺度、多朝向的航拍物体检测方法及***
CN113011329B (zh) * 2021-03-19 2024-03-12 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN112906662B (zh) * 2021-04-02 2022-07-19 海南长光卫星信息技术有限公司 一种遥感图像变化检测方法、装置、设备及存储介质
CN113283529B (zh) * 2021-06-08 2022-09-06 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113554156B (zh) * 2021-09-22 2022-01-11 中国海洋大学 基于注意力机制与可变形卷积的多任务图像处理方法
CN114022742B (zh) * 2021-10-22 2024-05-17 中国科学院长春光学精密机械与物理研究所 红外与可见光图像融合方法、装置及计算机存储介质
CN114170188A (zh) * 2021-12-09 2022-03-11 同济大学 一种俯视图像的目标计数方法、***及存储介质
CN114187275B (zh) * 2021-12-13 2024-07-02 贵州大学 一种基于多阶段和多尺度注意力融合网络及图像去雨方法
CN114399728B (zh) * 2021-12-17 2023-12-05 燕山大学 一种雾天场景人群计数方法
CN115620284B (zh) * 2022-12-19 2023-04-18 广东工业大学 基于卷积注意力机制的细胞凋亡计数方法、***及平台
CN116433675B (zh) * 2023-06-15 2023-08-15 武汉理工大学三亚科教创新园 基于残差信息增强的车辆计数方法、电子设备和可读介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232394B (zh) * 2018-03-06 2021-08-10 华南理工大学 一种多尺度图像语义分割方法
CN109241895B (zh) * 2018-08-28 2021-06-04 北京航空航天大学 密集人群计数方法及装置
CN110084210B (zh) * 2019-04-30 2022-03-29 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110188685B (zh) * 2019-05-30 2021-01-05 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及***
CN110674704A (zh) * 2019-09-05 2020-01-10 同济大学 一种基于多尺度扩张卷积网络的人群密度估计方法及装置
CN111179217A (zh) * 2019-12-04 2020-05-19 天津大学 一种基于注意力机制的遥感图像多尺度目标检测方法

Also Published As

Publication number Publication date
CN112084868A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112084868B (zh) 一种基于注意力机制的遥感图像中目标计数方法
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和***
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN109165682B (zh) 一种融合深度特征和显著性特征的遥感图像场景分类方法
CN104408742B (zh) 一种基于空间‑时间频谱联合分析的运动目标检测方法
Ablavatski et al. Enriched deep recurrent visual attention model for multiple object recognition
CN111160217B (zh) 一种行人重识别***对抗样本生成方法及***
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN112001225B (zh) 一种在线多目标跟踪方法、***及应用
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测***
CN111062310B (zh) 一种基于虚拟样本生成的少样本无人机图像识别方法
CN112288627A (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
CN114627447A (zh) 基于注意力机制和多目标跟踪的公路车辆跟踪方法及***
John et al. A comparative study of various object detection algorithms and performance analysis
CN114005078B (zh) 一种基于双关系注意力机制的车辆重识别方法
CN113011308A (zh) 一种引入注意力机制的行人检测方法
CN112785636A (zh) 一种多尺度增强式的单目深度估计方法
CN110837786A (zh) 基于空间通道的密度图产生方法、装置、电子终端及介质
CN115482518A (zh) 一种面向交通场景的可扩展多任务视觉感知方法
CN115115973A (zh) 一种基于多感受野与深度特征的弱小目标检测方法
Lin et al. SAN: Scale-aware network for semantic segmentation of high-resolution aerial images
CN114708620A (zh) 一种应用于无人机的航空视角下行人重识别方法及***
CN114882537A (zh) 一种基于神经辐射场的手指新视角图像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant