CN116403127A - 一种无人机航拍图像目标检测方法、装置和存储介质 - Google Patents

一种无人机航拍图像目标检测方法、装置和存储介质 Download PDF

Info

Publication number
CN116403127A
CN116403127A CN202310210638.7A CN202310210638A CN116403127A CN 116403127 A CN116403127 A CN 116403127A CN 202310210638 A CN202310210638 A CN 202310210638A CN 116403127 A CN116403127 A CN 116403127A
Authority
CN
China
Prior art keywords
convolution
module
aerial vehicle
unmanned aerial
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310210638.7A
Other languages
English (en)
Inventor
胡晨晨
史景伦
吕龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Weibo Intelligent Technology Co ltd
South China University of Technology SCUT
Original Assignee
Guangdong Weibo Intelligent Technology Co ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Weibo Intelligent Technology Co ltd, South China University of Technology SCUT filed Critical Guangdong Weibo Intelligent Technology Co ltd
Priority to CN202310210638.7A priority Critical patent/CN116403127A/zh
Publication of CN116403127A publication Critical patent/CN116403127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种无人机航拍图像目标检测方法、装置和存储介质,其中方法包括:主干网络对无人机航拍图像进行特征提取,获得初步特征;使用跨阶段局部空洞空间金字塔池化模块获得不同感受野的特征,并进行通道聚合,得到深层特征;将得到的深层特征输入到路径聚合网络模块中进行特征融合,并使用坐标注意力多尺度堆叠模块提取到更加丰富的空间位置信息,得到不同尺度的特征表示;将不同尺度的特征表示通过卷积模块和非线性激活函数进行目标分类和边界框回归。本发明通过采用坐标注意力多尺度堆叠模块在实现多尺度提取特征的同时将坐标信息注入到通道中,保留了更多的细节信息来帮助图像中小目标的检测。本发明可广泛应用于目标检测领域。

Description

一种无人机航拍图像目标检测方法、装置和存储介质
技术领域
本发明涉及目标检测领域,尤其涉及一种无人机航拍图像目标检测方法、装置和存储介质。
背景技术
随着计算机硬件和人工智能算法的快速发展,目标检测作为计算机视觉领域的重要组成部分,可以对图像进行目标分类和边界框回归从而精准地实现定位,在日常生活中得到了广泛运用。近年来,无人机航拍技术愈发成熟,这也为目标检测提供了一个新方向。通过对无人机航拍图像进行目标检测,我们可以在火灾或地震中快速定位受害人员,加快救援速度;可以对交通道路的车辆进行勘测,查看是否存在拥堵路段,进行人工疏通。
尽管无人机航拍图像的目标检测应用领域众多,但是针对无人机航拍图像的目标检测算法却比较少。究其原因,主要因为数据集缺乏、图像包含的目标尺寸过小或尺度分布不均匀、存在遮挡重叠等问题。因此,无人机航拍图像检测网络要尽可能地增加对特征信息的敏感度,引入注意力机制,扩大感受野来进行多尺度预测。类似于yolo系列的一阶段目标检测算法,虽然在常见的VOC数据集、MSCOCO数据集上表现良好,但是未引入注意力机制。或一些改进的算法中使用了注意力机制但未使用坐标注意力机制,容易丢失全局的位置信息,使得小目标容易在检测中遗漏。此外,池化操作也会造成信息丢失,如ASPP网络虽然在不改变特征图的分辨率的前提下获得了更大的感受野,但是空洞卷积导致部分信息丢失,使得检测精度下降。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种无人机航拍图像目标检测方法、装置和存储介质。
本发明所采用的技术方案是:
一种无人机航拍图像目标检测方法,包括以下步骤:
获取无人机航拍图像,对无人机航拍图像进行数据增强和预处理,以及设置先验框;
由坐标注意力多尺度堆叠模块构成的主干网络,对无人机航拍图像进行特征提取,获得初步特征;
根据初步特征,使用跨阶段局部空洞空间金字塔池化模块获得不同感受野的特征,并进行通道聚合,得到深层特征;
将得到的深层特征输入到路径聚合网络模块中进行特征融合,并使用坐标注意力多尺度堆叠模块提取到更加丰富的空间位置信息,得到不同尺度的特征表示;
将不同尺度的特征表示通过卷积模块和非线性激活函数进行目标分类和边界框回归。
进一步地,对无人机航拍图像进行数据增强,包括:
采用Mosaic方法、Mixup方法或者随机翻转三种方法中至少一种方法,对无人机航拍图像进行数据增强处理;
其中,在Mosaic方法中,将多张图片进行随机裁剪后再拼接成一张图片;在Mixup方法中,将两个样本及标签数据按比例相加后生成新的样本和标签数据。
数据预处理包括归一化真实框及调整输入图片大小为640×640×3。此外,设置9种不同尺寸的先验框以实现多尺度特征图边界框回归。
进一步地,所述主干网络包括一系列坐标注意力多尺度堆叠模块和下采样过渡模块,从而获得具备位置信息的特征表示;
其中,下采样过渡模块包括两个1×1卷积层、一个3×3卷积层、三个批量归一化层和三个SiLU激活函数层;
坐标注意力多尺度堆叠模块包括三个1×1卷积层、四个3×3卷积层、七个批量归一化层、八个SiLU激活层和一个坐标注意力层;坐标注意力层包括一个X方向上的全局平均池化层、一个Y方向上的全局平均池化层、三个1×1卷积层、一个批量归一化层和三个Sigmoid激活层。
进一步地,所述坐标注意力层的计算过程表达式如下:
Figure SMS_1
Figure SMS_2
f=σ(F1(Zh,Zw]))
gh=σ(Fh(fh))
gw=σ(Fw(fw))
Figure SMS_3
其中,xc是具有c个通道的输入特征,yc是输出特征,W和H是输入特征的宽和高,
Figure SMS_4
和/>
Figure SMS_5
是输入特征沿着水平方向和垂直方向进行全局平均池化的输出,i和j用于决定特征点的位置;σ表示Sigmoid激活函数,F1、Fh、Fw表示1×1卷积变换函数,f为中间特征,fh和fw为f沿着水平维度和垂直维度分割成两个特征表示,gh和gw为两个维度的特征表示经过1×1卷积变换函数和激活函数的输出。
进一步地,所述使用跨阶段局部空洞空间金字塔池化模块获得不同感受野的特征,包括:
跨阶段局部空洞空间金字塔池化模块将输入的初步特征按通道分割成两个部分,一部分通过1×1卷积层以保留较多细节信息,另一部分经过空洞空间金字塔池化层来获得不同感受野;
所述跨阶段局部空洞空间金字塔池化模块包括三个1×1卷积层、一个3×3卷积层、四个批量归一化层、四个SiLU激活函数层和空洞空间金字塔池化层;
所述空洞空间金字塔池化层包括三个1×1卷积层、3个3×3卷积层、一个池化层、一个批量归一化层、一个Relu激活层和一个上采样层;
空洞卷积特征图大小计算过程表达式如下:
n=k+(k-1)*(d-1)
Figure SMS_6
其中,d为引入的超参数,则(d-1)为输入特征图的空格数;k为原卷积核大小,n为加入空格后的卷积核大小,i为输入特征图的大小,p为填充值,s为步长,o为最终输出特征图的大小。
进一步地,所述路径聚合网络模块包括四个1×1卷积层、四个坐标注意力多尺度堆叠模块、两个下采样过渡模块和两个上采样层;
整个路径聚合网络的实现过程为深层特征向上采样并不断与浅层特征进行融合,再将融合后的浅层特征图通过坐标注意力多尺度堆叠模块和下采样过渡模块不断与深层特征进行融合,从而获得三种具备不同尺度和丰富语义信息的特征表示。
进一步地,所述路径聚合网络模块的计算过程表达式如下:
P′4=Fca([F1(P4),Fup(F1(P5))])
P″3=Fca([F1(P3),Fup(F1(P′4))])
P″4=Fca([Fdp(P″3),P′4])
P″5=Fca([Fdp(P″4),F1(P5)])
其中,P3和P4分别为主干网络提取到的不同尺度的特征图,P5为经过跨阶段局部空洞空间金字塔池化模块的深层特征图,P′4为上采样融合过程中得到的中间特征图,Fca为坐标注意力多尺度堆叠模块变换函数,Fup和Fdp分别为上采样和下采样过渡模块的变换函数,F1为1×1卷积的变换函数,P″3、P″4和P″5分别为最终融合后的三种不同尺度的输出特征表示。
进一步地,所述将不同尺度的特征表示通过卷积模块和非线性激活函数进行目标分类和边界框回归,包括:
在特征图上生成边界框,通过损失函数进行目标分类和边界框回归,并通过非极大值抑制筛选出得分最高的预测框,从而实现目标的精准检测;
其中,边界框回归计算过程表达式如下:
bx=σ(tx)×2-0.5+cx
by=σ(ty)×2-0.5+cy
bw=pw(σ(tw)×2)2
bh=ph(σ(th)×2)2
其中,cx和cy为网格左上角坐标,用于确定网格位置;tx、ty、tw和th为相对网格的偏移量,pw和ph为分别边界框相对网格的宽和高,bx、by、bw和bh为预测点坐标和预测框宽高,σ为Sigmoid激活函数。
本发明所采用的另一技术方案是:
一种无人机航拍图像目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过采用坐标注意力多尺度堆叠模块在实现多尺度提取特征的同时将坐标信息注入到通道中,缓解因不断卷积导致位置信息丢失的问题,保留了更多的细节信息来帮助图像中小目标的检测。另外,为了获得更大更准确的感受野且不增加计算量,本发明将跨阶段局部网络结构和空洞空间金字塔池化网络结构结合到一起,在减少计算量的同时可以调整***特征图中的空洞数来获得不同感受野的特征表示,使得在无人机航拍图像目标检测结果更加简单和精确。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中的坐标注意力多尺度堆叠网络图;
图2是本发明实施例中的坐标注意力模块图;
图3是本发明实施例中的坐标注意力多尺度堆叠模块图;
图4是普通的空洞空间金字塔池化模块图;
图5是本发明实施例中的跨阶段局部空洞空间金字塔池化模块;
图6为本发明实施例中一种基于坐标注意力多尺度堆叠网络的无人机航拍图像目标检测方法的步骤流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图6所示,本实施例提供一种基于坐标注意力多尺度堆叠网络的无人机航拍图像目标检测方法,该方法采用坐标注意力机制来构建堆叠模块和特征融合模块,分别用于主干网络中的特征提取及语义信息不同的底层特征和深层特征之间的特征融合。此外,将CSP与ASPP相结合,设计出新的CSP_ASPP模块可以在减少计算量的同时增大感受野,且通过CSP结构的分路操作可以保留更多的细节信息,有利于提高无人机航拍图像的目标检测精度。该方法具体包括以下步骤:
步骤S1、对获取的无人机航拍图像经过数据增强和预处理,并进行先验框大小的预设。
在本实施例中,对输入的无人机航拍图像进行Mosaic数据增强、Mixup数据增强以及随机翻转等,其中,Mosaic方法将四张图片进行随机裁剪后再拼接成一张图片,Mixup将两个样本及标签数据按比例相加后生成新的样本和标签数据。数据预处理包括归一化真实框以及调整输入图片大小为640×640×3。此外,设置9种不同尺寸的先验框以实现多尺度特征图边界框回归。
步骤S2、由坐标注意力多尺度堆叠模块构成的主干网络对图像进行初步特征提取。
由坐标注意力多尺度堆叠模块构成的主干网络对图像进行初步特征提取,如图1所示,主干网络包含一系列坐标注意力多尺度堆叠模块和下采样过渡模块,从而获得具备位置信息的初步特征表示。其中,下采样过渡模块包括两个1×1卷积层、一个3×3卷积层、三个批量归一化层和三个SiLU激活函数层。参见图3,坐标注意力多尺度堆叠模块包含三个1×1卷积层、四个3×3卷积层、七个批量归一化层、八个SiLU激活层和一个坐标注意力层。坐标注意力层如图2所示,包含一个X方向上的全局平均池化层、一个Y方向上的全局平均池化层、三个1×1卷积层、一个批量归一化层和三个Sigmoid激活层,计算过程表达式如下:
Figure SMS_7
Figure SMS_8
f=σ(F1([Zh,Zw])) (3)
gh=σ(Fh(fh)) (4)
gw=σ(Fw(fw)) (5)
Figure SMS_9
其中,Xc是具有c个通道的输入特征,Yc是输出特征,W和H是输入特征的宽和高,
Figure SMS_10
和/>
Figure SMS_11
是输入特征沿着水平方向和垂直方向进行全局平均池化的输出,其中,i和j用于决定特征点的位置。σ表示Sigmoid激活函数,F1、Fh、Fw表示1×1卷积变换函数,f为中间特征,fh和fw为f沿着水平维度和垂直维度分割成两个特征表示,gh和gw为两个维度的特征表示经过1×1卷积变换函数和激活函数的输出。
步骤S3、使用跨阶段局部空洞空间金字塔池化模块获得不同感受野的特征并进行通道聚合,得到深层特征表示。
参见图5,跨阶段局部空洞空间金字塔池化模块将输入特征按通道分割成两个部分,一部分通过1×1卷积层以保留较多细节信息,另一部分经过空洞空间金字塔池化层来获得不同感受野。跨阶段局部空洞空间金字塔池化模块包含三个1×1卷积层、一个3×3卷积层、四个批量归一化层、四个SiLU激活函数层和空洞空间金字塔池化层。其中,空洞空间金字塔池化层又包含三个1×1卷积层、3个3×3卷积层、一个池化层、一个批量归一化层、一个Relu激活层和一个上采样层。其中,图4为传统的空洞空间金字塔池化模块图。
空洞卷积特征图大小计算过程表达式如下:
n=k+(k-1)*(d-1) (7)
Figure SMS_12
其中,d为引入的超参数,则(d-1)为输入特征图的空格数。k为原卷积核大小,n为加入空格后的卷积核大小,i为输入特征图的大小,p为填充值,s为步长,o为最终输出特征图的大小。
步骤S4、将步骤S3中得到的深层特征输入到路径聚合网络模块中进行特征融合,并使用坐标注意力多尺度堆叠模块提取到更加丰富的空间位置信息,得到不同尺度的特征表示。
路径聚合网络模块包含四个1×1卷积层、四个坐标注意力多尺度堆叠模块、两个下采样过渡模块和两个上采样层。其中,参见图3,坐标注意力多尺度堆叠模块和下采样过渡模块的结构与步骤S2中描述的结构相同。整个路径聚合网络的实现过程为深层特征向上采样并不断与浅层特征进行融合,再将融合后的浅层特征图通过坐标注意力多尺度堆叠模块和下采样过渡模块不断与深层特征进行融合,从而获得三种具备不同尺度和丰富语义信息的特征表示。具体计算过程表达式如下:
P′4=Fca([F1(P4),Fup(F1(P5))]) (9)
P″3=Fca([F1(P3),Fup(F1(P′4))]) (10)
P″4=Fca([Fdp(P″3),P′4]) (11)
P″5=Fca([Fdp(P″4),F1(P5)]) (12)
其中,P3和P4分别为主干网络提取到的不同尺度的特征图,P5为经过跨阶段局部空洞空间金字塔池化模块的深层特征图,P′4为上采样融合过程中得到的中间特征图,Fca为坐标注意力多尺度堆叠模块变换函数,Fup和Fdp分别为上采样和下采样过渡模块的变换函数,F1为1×1卷积的变换函数,P″3、P″4和P″5分别为最终融合后的三种不同尺度的输出特征表示。
步骤S5、将不同尺度的特征表示通过卷积模块和SiLU非线性激活函数进行目标分类和边界框回归。
将步骤S4中得到的三种不同尺度的特征表示通过卷积模块和非线性激活函数进行解码预测,即在特征图上生成边界框,通过损失函数进行目标分类和边界框回归,并通过非极大值抑制筛选出得分最高的预测框,从而实现目标的精准检测。其中,边界框回归计算过程表达式如下:
bx=σ(tx)×2-0.5+cx (13)
by=σ(ty)×2-0.5+cy (14)
bw=pw(σ(tw)×2)2 (15)
bh=ph(σ(th)×2)2 (16)
其中,cx和cy为网格左上角坐标,用于确定网格位置。tx、ty、tw和th为相对网格的偏移量,pw和ph为分别边界框相对网格的宽和高,bx、by、bw和bh为预测点坐标和预测框宽高,σ为Sigmoid激活函数。
作为可选的实施方式,本实施例在训练阶段将分类损失、定位损失和置信度损失的加权和作为损失函数,并使用Adam优化器更新网络参数和多项式下降学习率策略更新学习率,训练迭代300个epoch,每次都在验证集上进行测试并保留验证集上损失函数值最小的模型权重。测试阶段,将测试数据集预处理后输入到最优模型中进行测试,并输出检测结果。
本实施例还提供一种无人机航拍图像目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图6所示方法。
本实施例的一种无人机航拍图像目标检测装置,可执行本发明方法实施例所提供的一种无人机航拍图像目标检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图6所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种无人机航拍图像目标检测方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种无人机航拍图像目标检测方法,其特征在于,包括以下步骤:
获取无人机航拍图像,对无人机航拍图像进行数据增强和预处理,以及设置先验框;
由坐标注意力多尺度堆叠模块构成的主干网络,对无人机航拍图像进行特征提取,获得初步特征;
根据初步特征,使用跨阶段局部空洞空间金字塔池化模块获得不同感受野的特征,并进行通道聚合,得到深层特征;
将得到的深层特征输入到路径聚合网络模块中进行特征融合,并使用坐标注意力多尺度堆叠模块提取到更加丰富的空间位置信息,得到不同尺度的特征表示;
将不同尺度的特征表示通过卷积模块和非线性激活函数进行目标分类和边界框回归。
2.根据权利要求1所述的一种无人机航拍图像目标检测方法,其特征在于,对无人机航拍图像进行数据增强,包括:
采用Mosaic方法、Mixup方法或者随机翻转三种方法中至少一种方法,对无人机航拍图像进行数据增强处理;
其中,在Mosaic方法中,将多张图片进行随机裁剪后再拼接成一张图片;在Mixup方法中,将两个样本及标签数据按比例相加后生成新的样本和标签数据。
3.根据权利要求1所述的一种无人机航拍图像目标检测方法,其特征在于,所述主干网络包括一系列坐标注意力多尺度堆叠模块和下采样过渡模块,从而获得具备位置信息的特征表示;
其中,下采样过渡模块包括两个1×1卷积层、一个3×3卷积层、三个批量归一化层和三个SiLU激活函数层;
坐标注意力多尺度堆叠模块包括三个1×1卷积层、四个3×3卷积层、七个批量归一化层、八个SiLU激活层和一个坐标注意力层;坐标注意力层包括一个X方向上的全局平均池化层、一个Y方向上的全局平均池化层、三个1×1卷积层、一个批量归一化层和三个Sigmoid激活层。
4.根据权利要求3所述的一种无人机航拍图像目标检测方法,其特征在于,所述坐标注意力层的计算过程表达式如下:
Figure FDA0004112646610000011
Figure FDA0004112646610000012
f=σ(F1([Zh,Zw]))
gh=σ(Fh(fh))
gw=σ(Fw(fw))
Figure FDA0004112646610000021
其中,xc是具有c个通道的输入特征,yc是输出特征,W和H是输入特征的宽和高,
Figure FDA0004112646610000022
Figure FDA0004112646610000023
是输入特征沿着水平方向和垂直方向进行全局平均池化的输出,i和j用于决定特征点的位置;σ表示Sigmoid激活函数,F1、Fh、Fw表示1×1卷积变换函数,f为中间特征,fh和fw为f沿着水平维度和垂直维度分割成两个特征表示,gh和gw为两个维度的特征表示经过1×1卷积变换函数和激活函数的输出。
5.根据权利要求1所述的一种无人机航拍图像目标检测方法,其特征在于,所述使用跨阶段局部空洞空间金字塔池化模块获得不同感受野的特征,包括:
跨阶段局部空洞空间金字塔池化模块将输入的初步特征按通道分割成两个部分,一部分通过1×1卷积层以保留较多细节信息,另一部分经过空洞空间金字塔池化层来获得不同感受野;
所述跨阶段局部空洞空间金字塔池化模块包括三个1×1卷积层、一个3×3卷积层、四个批量归一化层、四个SiLU激活函数层和空洞空间金字塔池化层;
所述空洞空间金字塔池化层包括三个1×1卷积层、3个3×3卷积层、一个池化层、一个批量归一化层、一个Relu激活层和一个上采样层;
空洞卷积特征图大小计算过程表达式如下:
n=k+(k-1)*(d-1)
Figure FDA0004112646610000024
其中,d为引入的超参数,则(d-1)为输入特征图的空格数;k为原卷积核大小,n为加入空格后的卷积核大小,i为输入特征图的大小,p为填充值,s为步长,o为最终输出特征图的大小。
6.根据权利要求1所述的一种无人机航拍图像目标检测方法,其特征在于,所述路径聚合网络模块包括四个1×1卷积层、四个坐标注意力多尺度堆叠模块、两个下采样过渡模块和两个上采样层;
整个路径聚合网络的实现过程为深层特征向上采样并不断与浅层特征进行融合,再将融合后的浅层特征图通过坐标注意力多尺度堆叠模块和下采样过渡模块不断与深层特征进行融合,从而获得三种具备不同尺度和丰富语义信息的特征表示。
7.根据权利要求6所述的一种无人机航拍图像目标检测方法,其特征在于,所述路径聚合网络模块的计算过程表达式如下:
P′4=Fca([F1(P4),Fup(F1(P5))])
P″3=Fca([F1(P3),Fup(F1(P′4))])
P″4=Fca([Fdp(P″3),P4])
P″5=Fca([Fdp(P″4),F1(P5)])
其中,P3和P4分别为主干网络提取到的不同尺度的特征图,P5为经过跨阶段局部空洞空间金字塔池化模块的深层特征图,P′4为上采样融合过程中得到的中间特征图,Fca为坐标注意力多尺度堆叠模块变换函数,Fup和Fdp分别为上采样和下采样过渡模块的变换函数,F1为1×1卷积的变换函数,P″3、P″4和P″5分别为最终融合后的三种不同尺度的输出特征表示。
8.根据权利要求1所述的一种无人机航拍图像目标检测方法,其特征在于,所述将不同尺度的特征表示通过卷积模块和非线性激活函数进行目标分类和边界框回归,包括:
在特征图上生成边界框,通过损失函数进行目标分类和边界框回归,并通过非极大值抑制筛选出得分最高的预测框,从而实现目标的精准检测;
其中,边界框回归计算过程表达式如下:
bx=σ(tx)×2-0.5+cx
by=σ(ty)×2-0.5+cy
bw=pw(σ(tw)×2)2
bh=ph(σ(th)×2)2
其中,cx和cy为网格左上角坐标,用于确定网格位置;tx、ty、tw和th为相对网格的偏移量,pw和ph为分别边界框相对网格的宽和高,bx、by、bw和bh为预测点坐标和预测框宽高,σ为Sigmoid激活函数。
9.一种无人机航拍图像目标检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-8任一项所述方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。
CN202310210638.7A 2023-03-06 2023-03-06 一种无人机航拍图像目标检测方法、装置和存储介质 Pending CN116403127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310210638.7A CN116403127A (zh) 2023-03-06 2023-03-06 一种无人机航拍图像目标检测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310210638.7A CN116403127A (zh) 2023-03-06 2023-03-06 一种无人机航拍图像目标检测方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN116403127A true CN116403127A (zh) 2023-07-07

Family

ID=87018774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310210638.7A Pending CN116403127A (zh) 2023-03-06 2023-03-06 一种无人机航拍图像目标检测方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN116403127A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372829A (zh) * 2023-10-25 2024-01-09 中国船舶集团有限公司第七一一研究所 海上船舶目标识别方法、装置、电子设备及可读介质
CN118279906A (zh) * 2024-05-30 2024-07-02 广东机电职业技术学院 一种基于无人机遥感影像和特征分离卷积的荔枝植株生长状态评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372829A (zh) * 2023-10-25 2024-01-09 中国船舶集团有限公司第七一一研究所 海上船舶目标识别方法、装置、电子设备及可读介质
CN118279906A (zh) * 2024-05-30 2024-07-02 广东机电职业技术学院 一种基于无人机遥感影像和特征分离卷积的荔枝植株生长状态评估方法

Similar Documents

Publication Publication Date Title
CN110956126B (zh) 一种联合超分辨率重建的小目标检测方法
CN112016614B (zh) 光学图像目标检测模型的构建方法、目标检测方法及装置
CN116403127A (zh) 一种无人机航拍图像目标检测方法、装置和存储介质
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN112329702B (zh) 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
CN114359851A (zh) 无人驾驶目标检测方法、装置、设备及介质
CN111242127A (zh) 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN111079739A (zh) 一种多尺度注意力特征检测方法
CN111126278A (zh) 针对少类别场景的目标检测模型优化与加速的方法
CN112257793A (zh) 一种基于改进YOLO v3算法的远距离交通标志检测方法
CN116052026B (zh) 一种无人机航拍图像目标检测方法、***及存储介质
CN114742799A (zh) 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN116342536A (zh) 基于轻量化模型的铝带材表面缺陷检测方法、***及设备
CN115439718A (zh) 一种结合监督学习和特征匹配技术的工业检测方法、***、存储介质
CN111275126A (zh) 样本数据集生成方法、装置、设备及存储介质
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN113822287A (zh) 一种图像处理方法、***、设备以及介质
CN113610178A (zh) 一种基于视频监控图像的内河船舶目标检测方法和装置
CN109284752A (zh) 一种车辆的快速检测方法
CN115512428B (zh) 一种人脸活体判别方法、***、装置和存储介质
CN115311550B (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN113420806B (zh) 一种人脸检测质量评分方法及***
CN116091784A (zh) 一种目标跟踪方法、设备及存储介质
CN115578624A (zh) 农业病虫害模型构建方法、检测方法及装置
CN115100428A (zh) 一种利用上下文感知的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination