CN111401201B - 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 - Google Patents

一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 Download PDF

Info

Publication number
CN111401201B
CN111401201B CN202010164167.7A CN202010164167A CN111401201B CN 111401201 B CN111401201 B CN 111401201B CN 202010164167 A CN202010164167 A CN 202010164167A CN 111401201 B CN111401201 B CN 111401201B
Authority
CN
China
Prior art keywords
attention
feature
spatial
unit
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010164167.7A
Other languages
English (en)
Other versions
CN111401201A (zh
Inventor
孙玉宝
辛宇
徐宏伟
陈勋豪
周旺平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010164167.7A priority Critical patent/CN111401201B/zh
Publication of CN111401201A publication Critical patent/CN111401201A/zh
Application granted granted Critical
Publication of CN111401201B publication Critical patent/CN111401201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,包括以下步骤:首先针对大尺寸数据集运用分块处理方法增强训练数据集理;设计卷积注意力增强特征表示的残差网络作为基干网络,进而高效提取图像特征;进一步构建空间金字塔注意力模块,促使网络能够更加的准确聚焦不同尺度的目标,提取目标所在的感兴趣区域;建立目标类别分析与目标框回归模块,对不同尺度下感兴趣区域进行分类与目标框预测;在测试阶段用训练好的检测网络,采用多尺度测试策略,再通过全局集成非极大值抑制算法,融合不同尺度的检测结果,进一步提升检测准确率。

Description

一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测 方法
技术领域
本发明属于图像识别和目标检测技术领域,具体涉及一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法。
背景技术
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个***的一项重要能力。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通***、智能监控***、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。
一方面,近年来出现了很多目标检测的方法,比如YOLO,SSD,RetinaNet,RCNN系列的方法,其中YOLO,SSD,RetinaNet都是单阶段方法,而原始RCNN以及它的延伸Fast-RCNN以及Faster-RCNN则是两阶段方法。RCNN系列方法是先生成候选框,然后根据候选框来进行坐标回归预测,而YOLO,SSD,RetinaNet则是直接进行回归生成坐标回归,没有经过候选框这一步。
另一方面,视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,以获取更多所需要关注目标的特征关键的信息。所以,引入注意力机制的模型对于提升目标检测的精度具有很大的帮助。
在不考虑检测的速度的情况下,二阶段的目标检测算法往往比单阶段的算法精度更高,因此在很多情况例如对无人机航拍图片进行检测中二阶段的算法往往能达到更高的精度。为此,本专利基于深度学习理论,同时运用最新的注意力机制的方法,提出基于特征金字塔双重注意力驱动的多尺度目标检测网络。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,本发明引入注意力机制的思想,通过在特征图的空间和通道添加注意力机制模块,使得主干网络产生的特征图在空间特征金字塔,之后可以获得一个精度更高和信息更丰富的特征图,进而送去区域建议网络进行检测,我们在无人机航拍图像上进行了验证,实验证明我们的网络可以提高对无人机航拍图像中的小目标的准确度。
为实现上述技术目的,本发明采取的技术方案为:
一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,其中:包括以下步骤:
S101:收集无人机航拍汽车图像集并进行分块处理,得到大量大小一致的切块小图;
S102:将切块小图输入残差网络,通过残差网络内部卷积注意力模块提取特征,所述卷积注意力模块包括第一通道注意力单元和第一空间注意力单元,根据第一通道注意力单元计算得到通道注意力图,根据第一空间注意力单元计算得到空间注意力图,结合通道注意力图和空间注意力图生成第一特征图;
S103:通过基于特征金字塔的检测器对第一特征图提取特征,通过对特征金字塔的从上到下部分的每一层添加含有第二空间注意力单元和第二通道注意力单元的双重注意力模块,将两个注意力单元产生的特征图进行融合得到第二特征图,并在最后一层把区域建议网络生成的第二特征图进行感兴趣区域对齐操作,固定特征的大小;
S104:针对获得的感兴趣区域对齐的第二特征图,建立目标类别分析与目标框回归模块,对不同尺度下感兴趣区域进行分类与目标框预测;
S105:采用原图和1.5倍原图进行多尺度图像测试,分别将两种尺度的图像输入深度网络进行测试,再通过全局集成非极大值抑制算法融合不同尺度的结果,来提高检测准确率。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤S101具体包括:对图像按照1000*1000的像素尺寸进行滑窗式分块,采用0.25的重叠率,并保留IOU>0.7的车辆的人工标注框坐标信息,对于切块后的图像中所有车辆,将人工标注的边界框转换为切块小图的坐标。
上述的步骤S102具体包括:将图片输入内嵌有卷积注意力模块的残差网络,其中第一通道注意力单元使用最大池化和平均池化在空间维度上对图片进行压缩,得到两个不同的空间背景
Figure GDA0004205015830000021
和/>
Figure GDA0004205015830000022
通过残差网络对空间背景/>
Figure GDA0004205015830000023
和/>
Figure GDA0004205015830000024
进行计算得到通道注意力图,通道注意力单元的计算公式为:
Figure GDA0004205015830000025
其中:W1和W0表示多层感知机的权重,并且在多层感知机中两个权重共享输入,而在多层感知机中,W0后面跟随了一个relu激活函数;σ代表Sigmoid函数,F代表对应了注意力机制中该阶段的卷积操作;
其中第一空间注意力单元在通道的维度上根据最大池化和平均池化得到两个不同的特征描述
Figure GDA0004205015830000031
和/>
Figure GDA0004205015830000032
根据卷积计算生成空间注意力图,第一空间注意力单元的计算公式为:
Figure GDA0004205015830000033
其中:σ表示Sigmoid函数,f7*7表示卷积核大小为7*7;
然后根据通道注意力图和空间注意力图生成第一特征图。
上述步骤103具体为:通过基于特征金字塔的检测器对第一特征图提取特征,对特征金字塔的从上到下部分的每一层添加含有第二位置注意力单元和第二空间注意力单元的双重注意力模块;
通过第二位置注意力单元计算出任意两点特征之间关联强度矩阵,即原始特征Aj经过卷积降维获得特征Bi、特征Cj和特征Di,然后改变特征维度Bi和Cj,根据矩阵乘积获得任意两点特征之间的关联强度矩阵;通过softmax函数计算获得每个位置对其他位置的特征Sji,接着将特征Sji和特征Di进行相乘融合,最后将结果和原始特征Aj进行相加得到位置注意力单元最终输出的位置特征图,其中第二位置注意力单元的计算公式如下:
Figure GDA0004205015830000034
其中Aj表示给定的位置所对应的特征;Bi,Cj,Di表示将Aj经过卷积降维产生的三个新的特征,Sji表示将Bi,Cj重新变形后进行矩阵相乘再经过softmax层得到的位置注意力图,Ej1表示第二位置注意力单元最终输出的位置特征图;
通过第二空间注意力单元将任意两个通道特征进行维度变换和矩阵乘积,获得任意两个通道的关联强度,然后计算获得通道间的特征图,最后通过通道之间的特征图加权进行融合,使得各个通道之间能产生全局的关联,获得更强的语义响应的特征,第二空间注意力单元的计算公式如下:
Figure GDA0004205015830000041
其中Aj表示给定的位置所对应的特征,xji表示Aj与Aj的转置4相乘后经过softmax层得到的通道特征图,Ej2表示第二空间注意力单元最终输出的空间特征图;
最后将第一空间特征图和第二空间特征图进行特征融合,获得最终的第二特征图,并在最后一层区域建议网络对得到的第二特征图进行感兴趣区域对齐操作,固定特征的大小。
上述的步骤S104具体为:将第二特征图进行感兴趣区域对齐操作并获得固定特征的大小后,连接两个1024层的全连接层,然后分两个支路,分别建立目标类别分析与目标框回归模块,对特征金字塔的不同尺度下感兴趣区域进行分类与目标框预测。
上述的步骤S105具体为:在测试中采用多尺度图像测试,除测试集中原图以及原图的1.5倍图,再对两种尺度的图像进行分块处理,然后将两种尺度的图像分别输入深度网络进行测试,得到各自尺度上的检测结果,对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果,来提高检测准确率。
上述的全局集成非极大值抑制算法过程如下:
Step1.各尺度子块预测框坐标全局对齐;
Step2.检测框置信度权值加权计算与排序;
Step3.选择置信度最高的比边界框添加到最终输出列表中,将其从边界框列表中删除;
step4.计算所有边界框的面积;
Step5.计算置信度最高的边界框与其它候选框的IOU;
Step6.删除IOU大于阈值的边界框;
Step7.重复上述过程,直至边界框列表为空。
本发明的有益效果:
本发明利用计算机目标检测和注意力机制理论,建立一种基于特征金字塔双重注意力驱动的多尺度目标检测网络方法,模型在航拍图像尺寸较大、待检测目标较小以及背景复杂程度高的情况下,首先通过对数据集的分块处理,然后再去利用特征金字塔双重注意力驱动的强大的特征提取能力,同时采用多尺度融合检测的方法,对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果,最终得到最为精确得检测结果。本发明的检测网络在航拍图片的目标检测上实现了很好的效果,在地理环境检测、交通流量控制、军事行为监控等领域发挥着举足轻重的作用。
附图说明
图1是本发明的算法流程示意图;
图2是全局非极大值抑制融合算法的流程示意图;
图3是本发明所构建的双重注意力机制驱动的特征金字塔部分的示意图;
图4是本发明的检测网络示意图;
图5是本发明的无人机航拍汽车数据集定量分析对比图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
如图1所示,本发明为一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,其中:包括以下步骤:
S101、在训练前,对用来验证我们设计网络有效性的无人机航拍汽车数据集进行分块处理;
具体为:在将数据集送进网络训练之前,我们首先对数据集进行处理,由于我们的实验所用的数据集包括4355张航拍图像及相应的人工标注车辆的坐标,对于每张图片由于无人机航拍存在着图像尺寸太大,因此我们按照1000*1000的像素尺寸对图像进行滑窗式分块,得到大量切块小图,为了尽量避免切分图像导致出现车辆不完整情况,采用0.25的重叠率,并保留IOU>0.7的车辆的人工标注框坐标信息,同时对于切块后的图像中所有车辆实例,将切片保存将其人工标注的边界框转换为切块小图的坐标,共计48416张1000*1000的小图。
S102、将切块小图输入残差网络,通过残差网络内部卷积注意力模块提取特征,所述卷积注意力模块包括第一通道注意力单元和第一空间注意力单元,根据第一通道注意力单元计算得到通道注意力图,根据第一空间注意力单元计算得到空间注意力图,结合通道注意力图和空间注意力图生成第一特征图。
具体为:图片首先经过一个主干网络,而我们主干网络选择的是残差网络,同时我们在残差上嵌入了卷积注意力机制模块,在这里卷积注意力模块是一种结合了空间和通道的注意力模块,然后将特征映射与输入的特征图相乘来进行特征的自适应学习;图片经过主干网络后,会生成一个特征图送到下一个环节;
其中卷积注意力模块,包含着第一通道注意力单元和第一空间注意力单元,第一通道注意力单元更关注于输入图片中什么是有意义的,为了高效地计算通道注意力,第一通道注意力单元使用最大池化和平均池化对在空间维度.上进行压缩,得到两个不同的空间背景
Figure GDA0004205015830000061
和/>
Figure GDA0004205015830000062
使用由MLP组成的共享网络对这两个不同的空间背景描述进行计算得到通道注意力图,因此第一通道注意力单元的计算公式如下所示:
Figure GDA0004205015830000063
其中,W1和W0表示多层感知机的权重,并且再多层感知机中两个权重共享输入,而在多层感知机中,W0后面跟随了一个relu激活函数;σ代表Sigmoid函数,F代表对应了注意力模块中该阶段的卷积操作。
其中第一空间注意力单元与第一通道注意力单元不同,第一空间注意力单元主要关注位置信息,首先在通道的维度上使用最大池化和平均池化得到两个不同的特征描述
Figure GDA0004205015830000064
和/>
Figure GDA0004205015830000065
然后使用级联将两个特征描述合并,并使用卷积操作生成空间注意力图,第一空间注意力单元的计算公式如下所示:
Figure GDA0004205015830000066
其中:σ代表Sigmoid函数,f7*7代表了卷积操作中的卷积核大小是7*7,然后根据通道注意力图和空间注意力图生成第一特征图。
S103、通过基于特征金字塔的检测器对第一特征图提取特征,通过对特征金字塔的从上到下部分的每一层添加含有第二空间注意力单元和第二通道注意力单元的双重注意力机制模块,计算出不同特征之间的关联程度以及建模通道之间的关联,并在最后一层区域建议网络对生成的第二特征图进行感兴趣区域对齐操作,固定特征的大小。
具体为:在检测器环节,首先把特征金字塔网络融合到Faster-RCNN中增加检测器对全图信息的认知,同时对空间特征金字塔结构的改进,添加双重注意力模块,最后将原始的Faster-RCNN中固定特征的大小感兴趣区域池化操作,替换成了像素级并且精度更高的感兴趣区域对齐操作。
检测网络的损失函数包括分类损失和回归损失,损失函数公式如下:
Figure GDA0004205015830000071
其中:i是第i目标框,
Figure GDA0004205015830000072
是以锚框为目标的概率,当锚框为目标时,/>
Figure GDA0004205015830000073
为1,否则为0,ti是预测框的位置坐标,/>
Figure GDA0004205015830000074
是真实标签的坐标;
在特征金字塔的从下到上部分即为主干网络网络得到的特征,之后采取的操作是对于从下到上部分的第2层进行1*1的降维操作,然后从下到上部分的第3层上采样之后的结果进行相加,得到从上到下部分的第2层;对于从上到下部分接下来一层也是一样的操作,然后对于得到的从上到下的部分进行区域建议网络操作得到要进行检测区域建议。
而对于残差网络中的融入双重注意力模块的特征金字塔部分具体步骤为,在不同尺度的特征图上实现对待检测目标的特征提取,通过对特征金字塔的从上到下部分的每一层添加双重注意力机制,可以获得一个精度更高和信息更丰富的特征图,该双重注意力模块在特征的空间维度和通道维度分别引入自注意力机制,即第二位置注意力单元和第二通道注意力单元,有效抓取特征的全局依赖关系。
其中,第二位置注意力单元利用任意两点特征之间的关联,来相互增强各自特征的表达。具体为,首先计算出任意两点特征之间关联强度矩阵,即原始特征Aj经过卷积降维获得特征Bi、特征Cj和特征Di,然后改变特征维度Bi和Cj,根据矩阵乘积获得任意两点特征之间的关联强度矩阵。然后经过softmax操作归一化获得每个位置对其他位置的特征Sji,其中越相似的两点特征之间,其Sji响应值越大。接着将特征图中响应值Sji作为加权对特征D进行加权融合,这样对于各个位置的点,其通过特征图在全局空间中的融合相似特征,第二位置注意力单元的计算公式如下:
Figure GDA0004205015830000075
其中Aj表示给定的位置所对应的特征,Bi,Cj,Di表示将Aj送进卷积层产生的两个新的特征图,Sji表示将Bi,Cj重新变形后进行矩阵相乘再经过softmax层得到空间特征图,Ej1表示第二位置注意力单元最终输出的位置特征图。
第二空间注意力单元通过建模通道之间的关联,增强通道下特定语义响应能力。具体过程与位置注意力模块相似,不同的是在获得特征注意力图X时,是将任意两个通道特征进行维度变换和矩阵乘积,获得任意两个通道的关联强度,然后同样经过softmax操作获得的通道间的特征图。最后通过通道之间的注意力图加权进行融合,使得各个通道之间能产生全局的关联,获得更强的语义响应的特征。通道注意力模块的计算公式如下:
Figure GDA0004205015830000081
其中Aj表示给定的位置所对应的特征,xji表示Aj与Aj的转置Ai相乘后经过softmax层得到的通道特征图,Ej2表示第二空间注意力单元最终输出的空间特征图。
在目标检测算法中,通常在区域建议网络得到待检测结果的区域建议候选框,然后使用感兴趣区域池化操作将大小不一的候选区域映射到固定大小的特征图上。然而,使用感兴趣区域池化有两个明显不足,其一为将候选框边界量化为整数坐标时会产生误差,在做池化时也存在浮点数取整而产生误差的情况。误差累计的结果导致候选框的坐标位置会出现偏移,影响检测效果。由于我们的数据集是对无人机航拍图像的汽车进行检测,需要检测的目标都是在图片中比例特别小的目标,因此在我们替换成了像素级并且精度更高的感兴趣区域对齐操作,进而取消量化操作,通过使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。
S104、将第二特征图进行感兴趣区域对齐操作并获得固定特征的大小后,连接两个1024层的全连接层,然后分两个支路,分别建立目标类别分析与目标框回归模块,对特征金字塔的不同尺度下感兴趣区域进行分类与目标框预测。
S105、在测试中采用多尺度图像测试,除测试集中原图以及原图的1.5倍图,再对两种尺度的图像进行分块处理,然后将两种尺度的图像分别输入深度网络进行测试,得到各自尺度上的检测结果,对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果,来提高检测准确率。
其中全局集成非极大值抑制算法过程如下;
Step1.各尺度子块预测框坐标全局对齐;
Step2.检测框置信度权值加权计算与排序;
Step3.选择置信度最高的比边界框添加到最终输出列表中,将其从边界框列表中删除;
step4.计算所有边界框的面积;
Step5.计算置信度最高的边界框与其它候选框的IOU;
Step6.删除IOU大于阈值的边界框;
Step7.重复上述过程,直至边界框列表为空。
对本发明进行对比实验,实验所用的数据集是‘贝式计算杯’信息融合挑战赛的无人机航拍汽车数据集,超参数设置如下:最大迭代次数为12,batchsize为1,学习率的设置采用warming up策略,初始的学习率是0.3333,让那后在在初始的500次迭代中学习率逐渐增加,降低到到0.00025,同时设置在在第8和11个周期时降低学习率。
实验的评价使用定量和可视化两种分析方法:
关于定量分析比较,使用precision(准确率)、recall(召回率)和F1分数来进行评判检测精度,使用精确率和召回率来去计算F1分数,来来衡量算法的检测精度。其中准确率、召回率和F1分数其计算分别如下:
Figure GDA0004205015830000091
Figure GDA0004205015830000092
Figure GDA0004205015830000093
其中,true posotives实际上指的是待检测目标被正确检测到,false positives实际上指的是非待目标被检测到,false negatives实际指的上是待检测的目标没有被检测到。
关于可视化分析比较,指的是我们对通过不同的检测算法跑出的模型,对同一张待检测的图片进行检测,同时我们编写的可视化的代码,将图片检测后的效果可视化出来,然后人为的去比较不同的检测算法跑出来的模型在同一张图片的检测效果。
综上可知,相对于常规目标检测算法对无人机航拍图像进行检测精度低,效果差等问题。本发明利用种深度学习和注意力机制,建立一种基于特征金字塔双重注意力驱动的多尺度无人机航拍目标检测网络,在特征提取的过程中,把注意力机制融入到空间金字塔里面,可以提取到更加丰富和有效信息,进而送到区域建议网络进行分类和回归,本申请的算法对于无人机航拍图片的检测,无论是从准确率、召回率上还是从视觉效果上来看,都呈现出巨大的优势。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (4)

1.一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,其特征在于:包括以下步骤:
S101:收集无人机航拍汽车图像集并进行分块处理,得到大量大小一致的切块小图;
S102:将切块小图输入残差网络,通过残差网络内部卷积注意力模块提取特征,所述卷积注意力模块包括第一通道注意力单元和第一空间注意力单元,根据第一通道注意力单元计算得到通道注意力图,根据第一空间注意力单元计算得到空间注意力图,结合通道注意力图和空间注意力图生成第一特征图;
S103:通过基于特征金字塔的检测器对第一特征图提取特征,通过对特征金字塔的从上到下部分的每一层添加含有第二空间注意力单元和第二通道注意力单元的双重注意力模块,将两个注意力单元产生的特征图进行融合得到第二特征图,并在最后一层把区域建议网络生成的第二特征图进行感兴趣区域对齐操作,固定特征的大小;
S104:针对获得的感兴趣区域对齐的第二特征图,建立目标类别分析与目标框回归模块,对不同尺度下感兴趣区域进行分类与目标框预测;
S105:采用原图和1.5倍原图进行多尺度图像测试,分别将两种尺度的图像输入深度网络进行测试,再通过全局集成非极大值抑制算法融合不同尺度的结果,来提高检测准确率;
所述步骤S102具体包括:
将图片输入内嵌有卷积注意力模块的残差网络,其中第一通道注意力单元使用最大池化和平均池化在空间维度上对图片进行压缩,得到两个不同的空间背景
Figure FDA0004205015820000011
和/>
Figure FDA0004205015820000012
通过残差网络对空间背景/>
Figure FDA0004205015820000013
和/>
Figure FDA0004205015820000014
进行计算得到通道注意力图,第一通道注意力单元的计算公式为:
Figure FDA0004205015820000015
其中:W1和W0表示多层感知机的权重,并且在多层感知机中两个权重共享输入,而在多层感知机中,W0后面跟随了一个relu激活函数;σ代表Sigmoid函数;
其中第一空间注意力单元在通道的维度上根据最大池化和平均池化得到两个不同的特征描述
Figure FDA0004205015820000016
和/>
Figure FDA0004205015820000017
根据卷积计算生成空间注意力图,第一空间注意力单元的计算公式为:
Figure FDA0004205015820000021
其中:σ表示Sigmoid函数,f7*7表示卷积核大小为7*7;
然后根据通道注意力图和空间注意力图生成第一特征图;
所述步骤S103具体为:
通过基于特征金字塔的检测器对第一特征图提取特征,对特征金字塔的从上到下部分的每一层添加含有第二位置注意力单元和第二空间注意力单元的双重注意力机制;
通过第二位置注意力单元计算出任意两点特征之间关联强度矩阵,即原始特征Aj经过卷积降维获得特征Bi、特征Cj和特征Di,然后改变特征维度Bi和Cj,根据矩阵乘积获得任意两点特征之间的关联强度矩阵;利用softmax函数计算获得每个位置对其他位置的特征Sji,接着将特征Sji和特征Di进行相乘融合,最后将结果和原始特征Aj进行相加得到位置注意力单元最终输出的位置特征图,其中第二位置注意力单元的计算公式如下:
Figure FDA0004205015820000022
其中Aj表示给定的位置所对应的特征;Bi,Cj,Di表示将Aj经过卷积降维产生的三个新的特征,Sji表示将Bi,Cj重新变形后进行矩阵相乘再经过softmax层得到的位置注意力图,Ej1表示第二位置注意力单元最终输出的位置特征图;
通过第二空间注意力单元将任意两个通道特征进行维度变换和矩阵乘积,获得任意两个通道的关联强度,然后计算获得通道间的注意力图,最后通过通道之间的注意力图加权进行融合,使得各个通道之间能产生全局的关联,获得更强的语义响应的特征,第二空间注意力单元的计算公式如下:
Figure FDA0004205015820000023
其中Aj表示给定的位置所对应的特征,xji表示Aj与Aj的转置Ai相乘后经过softmax层得到的通道特征图,Ej2表示第二空间注意力单元最终输出的空间特征图;
最后将位置特征图和空间特征图进行特征融合,获得最终的第二特征图,并在最后一层区域建议网络对得到的第二特征图进行感兴趣区域对齐操作,固定特征的大小;
所述全局集成非极大值抑制算法过程如下:
Step1.各尺度子块预测框坐标全局对齐;
Step2.检测框置信度权值加权计算与排序;
Step3.选择置信度最高的比边界框添加到最终输出列表中,将其从边界框列表中删除;
step4.计算所有边界框的面积;
Step5.计算置信度最高的边界框与其它候选框的IOU;
Step6.删除IOU大于阈值的边界框;
Step7.重复上述过程,直至边界框列表为空。
2.根据权利要求1所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,其特征在于:所述步骤S101具体包括:
对图像按照1000*1000的像素尺寸进行滑窗式分块,采用0.25的重叠率,并保留IOU>0.7的车辆的人工标注框坐标信息,对于切块后的图像中所有车辆,将人工标注的边界框转换为切块小图的坐标。
3.根据权利要求1所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,其特征在于:所述步骤S104具体为:
将第二特征图进行感兴趣区域对齐操作并获得固定特征的大小后,连接两个1024层的全连接层,然后分两个支路,分别建立目标类别分析与目标框回归模块,对特征金字塔的不同尺度下感兴趣区域进行分类与目标框预测。
4.根据权利要求3所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法,其特征在于:所述步骤S105具体为:
在测试中采用多尺度图像测试,除测试集中原图以及原图的1.5倍图,再对两种尺度的图像进行分块处理,然后将两种尺度的图像分别输入深度网络进行测试,得到各自尺度上的检测结果,对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果,来提高检测准确率。
CN202010164167.7A 2020-03-10 2020-03-10 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 Active CN111401201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010164167.7A CN111401201B (zh) 2020-03-10 2020-03-10 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010164167.7A CN111401201B (zh) 2020-03-10 2020-03-10 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Publications (2)

Publication Number Publication Date
CN111401201A CN111401201A (zh) 2020-07-10
CN111401201B true CN111401201B (zh) 2023-06-20

Family

ID=71432330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010164167.7A Active CN111401201B (zh) 2020-03-10 2020-03-10 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Country Status (1)

Country Link
CN (1) CN111401201B (zh)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814704B (zh) * 2020-07-14 2021-11-26 陕西师范大学 基于级联注意力与点监督机制的全卷积考场目标检测方法
CN111814726B (zh) * 2020-07-20 2023-09-22 南京工程学院 一种探测机器人视觉目标检测方法
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN112131925A (zh) * 2020-07-22 2020-12-25 浙江元亨通信技术股份有限公司 一种多通道特征空间金字塔的构造方法
CN112016569A (zh) * 2020-07-24 2020-12-01 驭势科技(南京)有限公司 基于注意力机制的目标检测方法、网络、设备和存储介质
CN111860683B (zh) * 2020-07-30 2021-04-27 中国人民解放军国防科技大学 一种基于特征融合的目标检测方法
CN111882002B (zh) * 2020-08-06 2022-05-24 桂林电子科技大学 一种基于msf-am的低照度目标检测方法
CN114140683A (zh) * 2020-08-12 2022-03-04 天津大学 一种航拍图像目标检测的方法、设备与介质
CN112101113B (zh) * 2020-08-14 2022-05-27 北京航空航天大学 一种轻量化的无人机图像小目标检测方法
CN111985552B (zh) * 2020-08-17 2022-07-29 中国民航大学 复杂背景下机场道面细带状结构病害检测方法
CN111914795B (zh) * 2020-08-17 2022-05-27 四川大学 一种航拍图像中旋转目标检测方法
CN112163447B (zh) * 2020-08-18 2022-04-08 桂林电子科技大学 基于Attention和SqueezeNet的多任务实时手势检测和识别方法
CN112037237B (zh) * 2020-09-01 2023-04-07 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及介质
CN112101366A (zh) * 2020-09-11 2020-12-18 湖南大学 基于混合扩张网络的实时分割***与方法
CN112101189B (zh) * 2020-09-11 2022-09-30 北京航空航天大学 基于注意力机制的sar图像目标检测方法及测试平台
CN112183269B (zh) * 2020-09-18 2023-08-29 哈尔滨工业大学(深圳) 一种适用于智能视频监控的目标检测方法与***
CN112132216B (zh) * 2020-09-22 2024-04-09 平安国际智慧城市科技股份有限公司 车型识别方法、装置、电子设备及存储介质
CN112233071A (zh) * 2020-09-28 2021-01-15 国网浙江省电力有限公司杭州供电公司 基于复杂环境下输电网图片的多粒度隐患检测方法及***
CN112163580B (zh) * 2020-10-12 2022-05-03 中国石油大学(华东) 一种基于注意力机制的小目标检测算法
CN112307984B (zh) * 2020-11-02 2023-02-17 安徽工业大学 基于神经网络的安全帽检测方法和装置
CN112365480B (zh) * 2020-11-13 2021-07-16 哈尔滨市科佳通用机电股份有限公司 制动夹钳装置闸片丢失故障识别方法
CN112465880B (zh) * 2020-11-26 2023-03-10 西安电子科技大学 基于多源异构数据认知融合的目标检测方法
CN112528786B (zh) * 2020-11-30 2023-10-31 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备
CN112396035A (zh) * 2020-12-07 2021-02-23 国网电子商务有限公司 基于注意力检测模型的物体检测方法和装置
CN112464851A (zh) * 2020-12-08 2021-03-09 国网陕西省电力公司电力科学研究院 一种基于视觉感知的智能电网异物入侵检测方法及***
CN112561876B (zh) * 2020-12-14 2024-02-23 中南大学 基于图像的池塘和水库的水质检测方法及***
CN112464910A (zh) * 2020-12-18 2021-03-09 杭州电子科技大学 一种基于YOLO v4-tiny的交通标志识别方法
CN112633158A (zh) * 2020-12-22 2021-04-09 广东电网有限责任公司电力科学研究院 一种输电线路走廊车辆识别方法、装置、设备和存储介质
CN112651326B (zh) * 2020-12-22 2022-09-27 济南大学 一种基于深度学习的驾驶员手部检测方法及***
CN112651371A (zh) * 2020-12-31 2021-04-13 广东电网有限责任公司电力科学研究院 着装安全检测方法、装置、存储介质及计算机设备
CN112733691A (zh) * 2021-01-04 2021-04-30 北京工业大学 一种基于注意力机制的多方向的无人机航拍的车辆检测方法
CN112926480B (zh) * 2021-03-05 2023-01-31 山东大学 一种面向多尺度、多朝向的航拍物体检测方法及***
CN112883907B (zh) * 2021-03-16 2022-07-05 云南师范大学 小体积模型的滑坡检测方法及装置
CN112907972B (zh) * 2021-04-06 2022-11-29 昭通亮风台信息科技有限公司 基于无人机的道路车流量检测方法、***及计算机可读存储介质
CN113343755A (zh) * 2021-04-22 2021-09-03 山东师范大学 红细胞图像中的红细胞分类***及方法
CN113538331A (zh) * 2021-05-13 2021-10-22 中国地质大学(武汉) 金属表面损伤目标检测识别方法、装置、设备及存储介质
CN113255759B (zh) * 2021-05-20 2023-08-22 广州广电运通金融电子股份有限公司 基于注意力机制的目标内特征检测***、方法和存储介质
CN113192058B (zh) * 2021-05-21 2021-11-23 中国矿业大学(北京) 一种基于计算机视觉的砖垛智能装车***及其装车方法
CN113469942B (zh) * 2021-06-01 2022-02-22 天津大学 一种ct图像病变检测方法
CN113486930B (zh) * 2021-06-18 2024-04-16 陕西大智慧医疗科技股份有限公司 基于改进RetinaNet的小肠淋巴瘤分割模型建立、分割方法及装置
CN113591859A (zh) * 2021-06-23 2021-11-02 北京旷视科技有限公司 图像分割方法、装置、设备及介质
CN113345082B (zh) * 2021-06-24 2022-11-11 云南大学 一种特征金字塔多视图三维重建方法和***
CN113537119B (zh) * 2021-07-28 2022-08-30 国网河南省电力公司电力科学研究院 基于改进Yolov4-tiny的输电线路连接部件检测方法
CN113567984B (zh) * 2021-07-30 2023-08-22 长沙理工大学 一种sar图像中人造小目标的检测方法及***
CN113628179B (zh) * 2021-07-30 2023-11-24 厦门大学 一种pcb表面缺陷实时检测方法、装置及可读介质
CN113591748A (zh) * 2021-08-06 2021-11-02 广东电网有限责任公司 一种航拍绝缘子目标检测方法及装置
CN113420729B (zh) * 2021-08-23 2021-12-03 城云科技(中国)有限公司 多尺度目标检测方法、模型、电子设备及其应用
CN113743521B (zh) * 2021-09-10 2023-06-27 中国科学院软件研究所 一种基于多尺度上下文感知的目标检测方法
CN114241003B (zh) * 2021-12-14 2022-08-19 成都阿普奇科技股份有限公司 一种全天候轻量化高实时性海面船只检测与跟踪方法
CN114038067B (zh) * 2022-01-07 2022-04-22 深圳市海清视讯科技有限公司 煤矿人员行为检测方法、设备及存储介质
CN114549413B (zh) * 2022-01-19 2023-02-03 华东师范大学 基于ct图像的多尺度融合全卷积网络***转移检测方法
CN114155475B (zh) * 2022-01-24 2022-05-17 杭州晨鹰军泰科技有限公司 无人机视角下端到端的人员动作识别方法、设备及介质
CN114529825B (zh) * 2022-04-24 2022-07-22 城云科技(中国)有限公司 用于消防通道占用目标检测的目标检测模型、方法及应用
CN114648736B (zh) * 2022-05-18 2022-08-16 武汉大学 基于目标检测的鲁棒工程车辆识别方法及***
CN114972860A (zh) * 2022-05-23 2022-08-30 郑州轻工业大学 一种基于注意增强的双向特征金字塔网络的目标检测方法
CN114821374B (zh) * 2022-06-27 2022-09-13 中国电子科技集团公司第二十八研究所 一种知识与数据协同驱动的无人机航拍目标检测方法
CN115147375B (zh) * 2022-07-04 2023-07-25 河海大学 基于多尺度注意力的混凝土表面缺陷特征检测方法
CN115100545A (zh) * 2022-08-29 2022-09-23 东南大学 针对低照度下失效卫星小部件的目标检测方法
CN115424230B (zh) * 2022-09-23 2023-06-06 哈尔滨市科佳通用机电股份有限公司 一种车门滑轮脱出轨道故障检测方法、存储介质及设备
CN116468730B (zh) * 2023-06-20 2023-09-05 齐鲁工业大学(山东省科学院) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN117671473B (zh) * 2024-02-01 2024-05-07 中国海洋大学 基于注意力和多尺度特征融合的水下目标检测模型及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110378242A (zh) * 2019-06-26 2019-10-25 南京信息工程大学 一种双重注意力机制的遥感目标检测方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN110533045A (zh) * 2019-07-31 2019-12-03 中国民航大学 一种结合注意力机制的行李x光违禁品图像语义分割方法
CN110532955A (zh) * 2019-08-30 2019-12-03 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110378242A (zh) * 2019-06-26 2019-10-25 南京信息工程大学 一种双重注意力机制的遥感目标检测方法
CN110533045A (zh) * 2019-07-31 2019-12-03 中国民航大学 一种结合注意力机制的行李x光违禁品图像语义分割方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN110532955A (zh) * 2019-08-30 2019-12-03 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多级特征和混合注意力机制的室内人群检测网络;沈文祥等;《计算机应用》;20191015(第12期);全文 *
基于深度学习的图像语义分割研究进展;李新叶等;《科学技术与工程》;20191128(第33期);全文 *

Also Published As

Publication number Publication date
CN111401201A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401201B (zh) 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
CN112200161B (zh) 一种基于混合注意力机制的人脸识别检测方法
JP6547069B2 (ja) 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN111291825B (zh) 病灶分类模型训练方法、装置、计算机设备和存储介质
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测***及方法
CN111027481B (zh) 基于人体关键点检测的行为分析方法及装置
CN112215217B (zh) 模拟医师阅片的数字图像识别方法及装置
Du et al. Modeling automatic pavement crack object detection and pixel-level segmentation
CN112149665A (zh) 一种基于深度学习的高性能多尺度目标检测方法
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN115546705B (zh) 目标识别方法、终端设备及存储介质
CN114429459A (zh) 目标检测模型的训练方法及对应的检测方法
Xing et al. The Improved Framework for Traffic Sign Recognition Using Guided Image Filtering
CN111339967A (zh) 一种基于多视域图卷积网络的行人检测方法
CN113780145A (zh) ***形态检测方法、装置、计算机设备和存储介质
CN116563285B (zh) 一种基于全神经网络的病灶特征识别与分割方法及***
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN117011566A (zh) 一种目标检测方法、检测模型训练方法、装置及电子设备
Cao et al. A long-memory pedestrian target tracking algorithm incorporating spatiotemporal trajectory feature enhancement model
CN117523428B (zh) 基于飞行器平台的地面目标检测方法和装置
CN113362372B (zh) 一种单目标追踪方法及计算机可读介质
Dong et al. Intelligent pixel-level pavement marking detection using 2D laser pavement images
CN115272992B (zh) 一种车辆姿态估计方法
CN115731517B (zh) 一种基于Crowd-RetinaNet网络的拥挤人群检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant