CN115641518A - 一种无人机用视图感知网络模型及目标检测方法 - Google Patents

一种无人机用视图感知网络模型及目标检测方法 Download PDF

Info

Publication number
CN115641518A
CN115641518A CN202211226543.6A CN202211226543A CN115641518A CN 115641518 A CN115641518 A CN 115641518A CN 202211226543 A CN202211226543 A CN 202211226543A CN 115641518 A CN115641518 A CN 115641518A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
branch
loss
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211226543.6A
Other languages
English (en)
Other versions
CN115641518B (zh
Inventor
魏玲
杨晓刚
李兴隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Weiran Intelligent Technology Co ltd
Original Assignee
Shandong Weiran Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Weiran Intelligent Technology Co ltd filed Critical Shandong Weiran Intelligent Technology Co ltd
Priority to CN202211226543.6A priority Critical patent/CN115641518B/zh
Publication of CN115641518A publication Critical patent/CN115641518A/zh
Application granted granted Critical
Publication of CN115641518B publication Critical patent/CN115641518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明主要提供了一种无人机用视图感知网络模型及目标检测方法,模型基于YOLO V4的网络框架进行改进,包括backbone网络、neck层和head检测头。backbone网络选取CSPDarknet53作为骨干网络,对图像进行特征提取;neck层采用特征融合模块DPFPN,用于收集不同阶段中特征图的网络层,进一步提取无人机图像中的复杂特征;head检测头用于预测无人机图像目标的类别、位置和置信度,其中的分类分支、回归分支和置信度分支的参数在训练阶段通过Vari‑focalloss算法进行训练损失计算并进行优化调整。本发明构建上下双路径特征融合模块DPFPN以更精细地融合目标特征,缓解无人机场景下目标多尺度问题;集成vari‑focalloss损失函数的计算以缓解无人机图像密集目标引起的检测器位置误差。

Description

一种无人机用视图感知网络模型及目标检测方法
技术领域
本发明属于无人机图像识别技术领域,尤其涉及一种无人机用视图感知网络模型及目标检测方法。
背景技术
与自然场景中的目标检测相比,无人机场景中的目标检测发展缓慢,随着深度学习的发展,无人机场景中的目标检测在救援、监视、交通监控和行人跟踪方面获得了巨大的发展势头,所有这些应用都需要在无人机视图中对目标进行鲁棒有效的识别。然而,在无人机视图的图像中检测目标并不容易,存在一些挑战,例如环境变化频繁、目标尺度剧烈变化、无人机计算能力有限等。目前随着大规模数据集的普及,许多最先进的基于卷积神经网络的检测器已经显示出相当高的性能,例如R-CNN系列和YOLO系列。然而,这些检测器适用于分辨率相对较低的图像,由于计算成本的限制,处理更高分辨率的图像成为更大的挑战。
本发明重点针对两个方面的问题提出了改进方案:无人机所拍摄物体尺度的剧烈变化以及密集物体的遮挡,现有的检测器识别精度及效率,仍然有进一步提升的空间。
发明内容
针对无人机场景下目标多尺度问题,本发明构建了一个上下双路径特征融合模块DPFPN,以更精细地融合目标特征;针对无人机图像中目标密集问题,本发明引入vari-focalloss损失计算,以缓解密集目标引起的检测器位置误差。
本发明第一方面提供了一种无人机用视图感知网络模型,基于YOLO V4的网络框架进行改进,包括backbone网络、neck层和head检测头;
所述backbone网络选取CSPDarknet53作为骨干网络,对预处理后的无人机图像进行特征提取;所述CSPDarknet53骨干网络输出包括C2、C3、C4和C5四层,其中C3、C4和C5作为neck层的输入;
所述neck层采用特征融合模块DPFPN,用于收集不同阶段中特征图的网络层,进一步提取无人机图像中的复杂特征;所述neck层的输出P5、P4和P3作为head检测头的输入;
所述head检测头用于预测无人机图像目标的类别、位置和置信度,包括三个分支,所述三个分支的输入是三种尺度特征图,自上而下分别对应neck层的P3、P4和P5;其中,每个分支包括三个子分支,分别为分类分支、回归分支和置信度分支;所述分类分支、回归分支和置信度分支的参数在训练阶段通过Vari-focalloss算法进行训练损失计算并进行优化调整。
在一种可能的设计中,所述CSPDarknet53骨干网络依次通过2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块和一个CBM模块得到输出。
在一种可能的设计中,所述特征融合DPFPN模块基于FPN进行改进;将骨干网络得到的输出C5经过1×1的卷积得到大小相同的P5;将P5进行下采样的结果和C4经过一个1×1的卷积得到的结果进行拼接操作,得到P4;将P4进行下采样的结果和C3经过一个1×1的卷积得到的结果进行拼接操作,得到P3;此时得到的P3有三个分支,一个分支经过3×3的卷积得到最终的P3;剩余两个P3分支进行相同的操作,先上采样得到P4,再进一步上采样得到P5;将两个P4分支进行特征融合后经过3×3的卷积操作得到最终的P4;将两个P5分支进行特征融合后经过3×3的卷积操作后得到最终的P5;其中,特征融合时能够将两个分支的特征层与丰富的语义信息和空间信息相融合,得到neck颈部的输出P5、P4、P3。
在一种可能的设计中,所述head检测头中三个分支的开头是2个CBL模块,实现通道降维,然后是三个子分支,分别为分类分支、回归分支和置信度分支,每个子分支分别通过CBL模块、卷积操作和sigmoid激活函数后,三个子分支进行连接,并进行reshape调整大小操作后输出。
在一种可能的设计中,所述分类分支、回归分支和置信度分支的参数在训练阶段通过Vari-focalloss算法进行训练损失计算的具体过程为:
在训练阶段,计算置信度损失、分类损失和定位损失,损失的计算如下:
Ltotal=Lconf+Lcls+Lbbox
其中,Ltotal表示模型的总损失,Lvonf表示置信度损失,Lvls表示分类损失,Lbbox表示定位损失;
引入Vari-focalloss来训练目标检测器,从而来预测IACS:
Figure BDA0003879982370000031
其中,p是预测的IACS分数;q是目标IoU分数,对于训练中的正样本,q设置为生成的bbox和gtbox之间的IoU值,对于训练中的负样本,所有类别的训练目标q均设置为0;α是前景背景的损失权重;p的γ倍是不同样本的权重;
Lbbox使用IoU损失来表示目标的定位损失:
Figure BDA0003879982370000032
其中,A表示预测框的面积,B表示真实框的面积;
Lcls表示目标的分类损失:
Lcls=-(ylog(y′)+(1-y)log(1-y′))
其中,y是真实类别,y′表示预测类别。
本发明第二方面提供了一种无人机用目标检测方法,包括以下过程:
通过无人机拍摄获取图像;
将图像进行预处理;所述预处理包括对图像大小进行调整,并选择Mosaic马赛克和Cut-Mix剪切混合进行数据增强;
将预处理后的图像输入如权利要求1至5任意一项所述的视图感知网络模型中进行处理并检测。
本发明第三方面提供了一种无人机用目标检测设备,所述设备包括至少一个处理器和至少一个存储器;所述存储器中存储有如第一方面所述的视图感知网络模型的程序;所述处理器执行所述存储器存储的程序时,可以实现无人机图像的目标检测识别。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述的视图感知网络模型的计算机执行程序,所述计算机执行程序被处理器执行时可以实现无人机图像的目标检测识别。
有益效果:本发明提出了一种用于目标检测的无人机视图感知网络,构建上下双路径特征融合模块DPFPN以更精细地融合目标特征,缓解无人机场景下目标多尺度问题;集成vari-focalloss损失函数的计算以缓解无人机图像密集目标引起的检测器位置误差。在VisDrone数据集上,本发明实现了SOTA性能,平均精度mAP比YOLOX和YOLOV5分别提高了1.2和0.4个点;本发明相比于一些两阶段模型,更准确、更高效。整体上实现了无人机场景下目标检测更高的精度和效率。
附图说明
图1为本发明中无人机用视图感知网络模型的结构示意图。
图2为本发明中CSPDarkNet53骨干网络结构示意图。
图3为本发明中head检测头结构示意图。
图4为本发明中特征融合模块DPFPN的结构示意图。
图5为本发明一种无人机用目标检测设备的简易结构示意图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
与自然场景中的目标检测相比,无人机目标检测精度较低的主要原因是无人机具有较宽的飞行视野,并且容易出现远距离小目标尺寸和近距离大目标尺寸的现象,导致目标比例发生剧烈变化;此外,人和车辆等密集目标使得检测器在回归过程中的定位能力较差。
本发明提出的用于目标检测的无人机视图感知网络架构如图1所示。目前在目标检测中,通过考虑选择具有强大图像特征提取能力且不太大的主干来改进检测器映射度量,因为这会影响检测速度,本发明根据YOLOV4选择CSPDarkNet53作为主干网络。首先,将输入图像大小调整为640,这里选择Mosaic马赛克和Cut-Mix剪切混合作为数据增强方法。通过骨干网络CSPDarkNet53进行后处理,CSPDarkNet53依次通过2个CBM模块,1个CSP模块,2个CBM模块,1个CSP模块,2个CBM模块,1个CSP模块,2个CBM模块,1个CSP模块,2个CBM模块,1个CSP模块,一个CBM模块,得到输出。CBM模块由卷积操作、batchnorm批量标准化操作和Mish激活函数构成;CSP模块由CBL和res unit残差单元组成;CBL模块由卷积操作、batchnorm批量标准化和Leaky ReLu激活函数构成;res unit残差单元由CBL模块残差组成,具体结构如图2所示。骨干网络的输出有四层,称为C2、C3、C4、C5。将C3、C4、C5作为网络neck层的输入,使用Silu激活函数,通过设计精细的特征提取模块DPFPN,得到P5、P4、P3的输出,并将P5、P4、P3馈送到共享头head检测头,经过NMS非极大值抑制,得到最终的检测结果。
如图3所示,head检测头共三大分支,三大分支的输入是三种尺度特征图,自上而下分别对应neck层的P3、P4、P5。每个分支的开头是2个CBL模块,实现通道降维,然后是三个子分支,分类分支、回归分支和置信度分支。每个子分支分别通过CBL模块、卷积操作和sigmoid激活函数后,三个子分支进行连接,进行reshape调整大小操作后输出。其中,置信分支Obj用于确定目标存在或不存在,目标类分支Cls用于预测网络输出类别即对目标进行分类,Reg分支用于回归定位目标的位置。
关于特征融合模块DPFPN:
特征融合模块是目标检测的重要组成部分,融合从骨干网络中提取的特征,然后获得更丰富的特征层,方便下游检测任务。与自然场景相比,无人机捕捉到的场景在图片中有很多小目标,由于在骨干网络中对小目标进行了多次降采样操作,因此小目标信息很容易丢失。
如图4所示,网络的特征融合DPFPN模块充分利用FPN的底层。将骨干网络得到的输出C5经过1×1的卷积得到大小相同的P5;将P5进行下采样的结果和C4经过一个1×1的卷积得到的结果进行拼接操作,得到P4;将P4进行下采样的结果和C3经过一个1×1的卷积得到的结果进行拼接操作,得到P3;此时得到的P3有三个分支,一个分支经过3×3的卷积得到最终的P3;剩余两个P3分支进行相同的操作,先上采样得到P4,再进一步上采样得到P5;将两个P4分支进行特征融合后经过3×3的卷积操作得到最终的P4;将两个P5分支进行特征融合后经过3×3的卷积操作后得到最终的P5。其中,特征融合时能够将两个分支的特征层与丰富的语义信息和空间信息相融合,得到neck颈部的输出P5、P4、P3。
FPN使用了一种将浅层的低级位置特征与高级深层语义特征相结合的策略,能够获得良好的输出结果。本发明提出的DPFPN是基于FPN的改进,不仅能够在水平方向上融合FPN传递的特征信息,而且能够进一步在垂直方向上融合来自骨干网络中提取的特征信息,即在广度和深度上进行双路径特征融合,从而获得更加精细的特征信息。
关于Vari-focalloss训练损失的计算:
在训练阶段,计算置信度损失、分类损失和定位损失,损失的计算如下:
Ltotal=Lconf+Lcls+Lbbox
其中,Ltotal表示模型的总损失,Lconf表示置信度损失,Lcls表示分类损失,Lbbox表示定位损失。
引入Vari-focalloss来训练目标检测器来预测IACS(IACS是一个IoU感知的分类分数,表示目标存在和定位精度的置信度)。
Figure BDA0003879982370000071
其中,p是预测的IACS分数;q是目标IoU分数,对于训练中的正样本,q设置为生成的bbox和gtbox之间的IoU值,对于训练中的负样本,所有类别的训练目标q均设置为0;α是前景背景的损失权重;p的γ倍是不同样本的权重。
Lbbox使用IoU损失来表示目标的定位损失。
Figure BDA0003879982370000081
其中,A表示预测框的面积,B表示真实框的面积。
Lcls表示目标的分类损失。
Lcls=-(ylog(y′)+(1-y)log(1-y′))
其中,y是真实类别,y′表示预测类别。
基于上述模型结构,本发明提供了一种无人机用目标检测方法:
首先通过无人机拍摄获取图像;将拍摄的图像进行预处理;预处理包括对图像大小进行调整,并选择Mosaic马赛克和Cut-Mix剪切混合进行数据增强;将预处理后的图像输入上述的视图感知网络模型中进行处理并检测,最终输出预测结果。
实施例2:
如图5所示,本发明同时提供了一种基于知识图谱的小目标检测设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如实施例1所述搭建的小目标检测模型的计算机程序;所述处理器执行所述存储器存储的计算机程序时,使得所述设备实现小目标检测。其中内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。设备可以被提供为终端、服务器或其它形态的设备。
图5是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理***,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。I/O接口为处理组件和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
实施例3:
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如实施例1所述搭建的小目标检测模型的程序或指令,所述程序或指令被处理器执行时,使得计算机实现实现小目标检测。
具体地,可以提供配有可读存储介质的***、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如CD-ROM、CD-R、CD-RW、DVD-20ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种无人机用视图感知网络模型,基于YOLO V4的网络框架进行改进,其特征在于:包括backbone网络、neck层和head检测头;
所述backbone网络选取CSPDarknet53作为骨干网络,对预处理后的无人机图像进行特征提取;所述CSPDarknet53骨干网络输出包括C2、C3、C4和C5四层,其中C3、C4和C5作为neck层的输入;
所述neck层采用特征融合模块DPFPN,用于收集不同阶段中特征图的网络层,进一步提取无人机图像中的复杂特征;所述neck层的输出P5、P4和P3作为head检测头的输入;
所述head检测头用于预测无人机图像目标的类别、位置和置信度,包括三个分支,所述三个分支的输入是三种尺度特征图,自上而下分别对应neck层的P3、P4和P5;其中,每个分支包括三个子分支,分别为分类分支、回归分支和置信度分支;所述分类分支、回归分支和置信度分支的参数在训练阶段通过Vari-focalloss算法进行训练损失计算并进行优化调整。
2.如权利要求1所述的一种无人机用视图感知网络模型,其特征在于:所述CSPDarknet53骨干网络依次通过2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块、2个CBM模块、1个CSP模块和一个CBM模块得到输出。
3.如权利要求1所述的一种无人机用视图感知网络模型,其特征在于:所述特征融合DPFPN模块基于FPN进行改进;将骨干网络得到的输出C5经过1×1的卷积得到大小相同的P5;将P5进行下采样的结果和C4经过一个1×1的卷积得到的结果进行拼接操作,得到P4;将P4进行下采样的结果和C3经过一个1×1的卷积得到的结果进行拼接操作,得到P3;此时得到的P3有三个分支,一个分支经过3×3的卷积得到最终的P3;剩余两个P3分支进行相同的操作,先上采样得到P4,再进一步上采样得到P5;将两个P4分支进行特征融合后经过3×3的卷积操作得到最终的P4;将两个P5分支进行特征融合后经过3×3的卷积操作后得到最终的P5;其中,特征融合时能够将两个分支的特征层与丰富的语义信息和空间信息相融合,得到neck颈部的输出P5、P4、P3。
4.如权利要求1所述的一种无人机用视图感知网络模型,其特征在于:所述head检测头中三个分支的开头是2个CBL模块,实现通道降维,然后是三个子分支,分别为分类分支、回归分支和置信度分支,每个子分支分别通过CBL模块、卷积操作和sigmoid激活函数后,三个子分支进行连接,并进行reshape调整大小操作后输出。
5.如权利要求1所述的一种无人机用视图感知网络模型,其特征在于:所述分类分支、回归分支和置信度分支的参数在训练阶段通过Vari-focalloss算法进行训练损失计算的具体过程为:
在训练阶段,计算置信度损失、分类损失和定位损失,损失的计算如下:
Ltotal=Lconf+Lcls+Lbbox
其中,Ltotal表示模型的总损失,Lvonf表示置信度损失,Lvls表示分类损失,Lbbox表示定位损失;
引入Vari-focalloss来训练目标检测器,从而来预测IACS:
Figure FDA0003879982360000021
其中,p是预测的IACS分数;q是目标IoU分数,对于训练中的正样本,q设置为生成的bbox和gtbox之间的IoU值,对于训练中的负样本,所有类别的训练目标q均设置为0;α是前景背景的损失权重;p的γ倍是不同样本的权重;
Lbbox使用IoU损失来表示目标的定位损失:
Figure FDA0003879982360000031
其中,A表示预测框的面积,B表示真实框的面积;
Lcls表示目标的分类损失:
Lcls=-(ylog(y′)+(1-y)log(1-y′))
其中,y是真实类别,y′表示预测类别。
6.一种无人机用目标检测方法,其特征在于,包括以下过程:
通过无人机拍摄获取图像;
将图像进行预处理;所述预处理包括对图像大小进行调整,并选择Mosaic马赛克和Cut-Mix剪切混合进行数据增强;
将预处理后的图像输入如权利要求1至5任意一项所述的视图感知网络模型中进行处理并检测。
7.一种无人机用目标检测设备,其特征在于:所述设备包括至少一个处理器和至少一个存储器;所述存储器中存储有如权利要求1至5任意一项所述的视图感知网络模型的程序;所述处理器执行所述存储器存储的程序时,可以实现无人机图像的目标检测识别。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有如权利要求1至5任意一项所述的视图感知网络模型的计算机执行程序,所述计算机执行程序被处理器执行时可以实现无人机图像的目标检测识别。
CN202211226543.6A 2022-10-09 2022-10-09 一种无人机用视图感知网络模型及目标检测方法 Active CN115641518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211226543.6A CN115641518B (zh) 2022-10-09 2022-10-09 一种无人机用视图感知网络模型及目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211226543.6A CN115641518B (zh) 2022-10-09 2022-10-09 一种无人机用视图感知网络模型及目标检测方法

Publications (2)

Publication Number Publication Date
CN115641518A true CN115641518A (zh) 2023-01-24
CN115641518B CN115641518B (zh) 2023-09-26

Family

ID=84941591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211226543.6A Active CN115641518B (zh) 2022-10-09 2022-10-09 一种无人机用视图感知网络模型及目标检测方法

Country Status (1)

Country Link
CN (1) CN115641518B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935366A (zh) * 2023-09-15 2023-10-24 南方电网数字电网研究院有限公司 一种目标检测方法、装置、电子设备及存储介质
CN117132810A (zh) * 2023-08-14 2023-11-28 华润数字科技有限公司 目标检测方法、模型训练方法、装置、设备和存储介质
CN117392527A (zh) * 2023-12-11 2024-01-12 中国海洋大学 一种高精度水下目标分类检测方法及其模型搭建方法
CN117496384A (zh) * 2023-11-15 2024-02-02 电子科技大学 一种无人机图像物体检测方法
CN118155105A (zh) * 2024-05-13 2024-06-07 齐鲁空天信息研究院 一种无人机山区救援方法、***、介质及电子设备
CN117132810B (zh) * 2023-08-14 2024-07-30 华润数字科技有限公司 目标检测方法、模型训练方法、装置、设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、***及介质
CN112926685A (zh) * 2021-03-30 2021-06-08 济南大学 一种工业中钢材氧化带目标检测方法、***及设备
CN113033604A (zh) * 2021-02-03 2021-06-25 淮阴工学院 一种基于SF-YOLOv4网络模型的车辆检测方法、***及存储介质
CN114359851A (zh) * 2021-12-02 2022-04-15 广州杰赛科技股份有限公司 无人驾驶目标检测方法、装置、设备及介质
CN114627052A (zh) * 2022-02-08 2022-06-14 南京邮电大学 一种基于深度学习的红外图像漏气漏液检测方法及***
CN114842365A (zh) * 2022-07-04 2022-08-02 中国科学院地理科学与资源研究所 一种无人机航拍目标检测识别方法和***
CN114937201A (zh) * 2022-07-04 2022-08-23 中国海洋大学三亚海洋研究院 一种海洋生物目标检测算法模型的搭建方法及识别方法
CN115035386A (zh) * 2022-06-29 2022-09-09 合肥学院 一种基于定位蒸馏的yolox目标检测模型压缩方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、***及介质
CN113033604A (zh) * 2021-02-03 2021-06-25 淮阴工学院 一种基于SF-YOLOv4网络模型的车辆检测方法、***及存储介质
CN112926685A (zh) * 2021-03-30 2021-06-08 济南大学 一种工业中钢材氧化带目标检测方法、***及设备
CN114359851A (zh) * 2021-12-02 2022-04-15 广州杰赛科技股份有限公司 无人驾驶目标检测方法、装置、设备及介质
CN114627052A (zh) * 2022-02-08 2022-06-14 南京邮电大学 一种基于深度学习的红外图像漏气漏液检测方法及***
CN115035386A (zh) * 2022-06-29 2022-09-09 合肥学院 一种基于定位蒸馏的yolox目标检测模型压缩方法
CN114842365A (zh) * 2022-07-04 2022-08-02 中国科学院地理科学与资源研究所 一种无人机航拍目标检测识别方法和***
CN114937201A (zh) * 2022-07-04 2022-08-23 中国海洋大学三亚海洋研究院 一种海洋生物目标检测算法模型的搭建方法及识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIN ZHAO ET AL.: "E-Commerce Picture Text Recognition Information System Based on Deep Learning", 《COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE》 *
HAOYANG ZHANG ET AL.: "VarifocalNet: An IoU-aware Dense Object Detector", 《ARXIV》 *
贾晓雅 等: "基于 框架的无锚框 图像舰船目标检测", 《***工程与电子技术》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132810A (zh) * 2023-08-14 2023-11-28 华润数字科技有限公司 目标检测方法、模型训练方法、装置、设备和存储介质
CN117132810B (zh) * 2023-08-14 2024-07-30 华润数字科技有限公司 目标检测方法、模型训练方法、装置、设备和存储介质
CN116935366A (zh) * 2023-09-15 2023-10-24 南方电网数字电网研究院有限公司 一种目标检测方法、装置、电子设备及存储介质
CN116935366B (zh) * 2023-09-15 2024-02-20 南方电网数字电网研究院股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN117496384A (zh) * 2023-11-15 2024-02-02 电子科技大学 一种无人机图像物体检测方法
CN117496384B (zh) * 2023-11-15 2024-07-02 电子科技大学 一种无人机图像物体检测方法
CN117392527A (zh) * 2023-12-11 2024-01-12 中国海洋大学 一种高精度水下目标分类检测方法及其模型搭建方法
CN117392527B (zh) * 2023-12-11 2024-02-06 中国海洋大学 一种高精度水下目标分类检测方法及其模型搭建方法
CN118155105A (zh) * 2024-05-13 2024-06-07 齐鲁空天信息研究院 一种无人机山区救援方法、***、介质及电子设备

Also Published As

Publication number Publication date
CN115641518B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111476306B (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
US11393256B2 (en) Method and device for liveness detection, and storage medium
CN108629354B (zh) 目标检测方法及装置
CN110544217B (zh) 一种图像处理方法及装置、电子设备和存储介质
US20210133468A1 (en) Action Recognition Method, Electronic Device, and Storage Medium
CN115641518A (zh) 一种无人机用视图感知网络模型及目标检测方法
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
US11443438B2 (en) Network module and distribution method and apparatus, electronic device, and storage medium
CN110751659B (zh) 图像分割方法及装置、终端、存储介质
CN110443366B (zh) 神经网络的优化方法及装置、目标检测方法及装置
CN115908442B (zh) 一种无人机海洋监测用图像全景分割方法及模型搭建方法
CN114937201A (zh) 一种海洋生物目标检测算法模型的搭建方法及识别方法
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN114267041B (zh) 场景中对象的识别方法及装置
CN113326768A (zh) 训练方法、图像特征提取方法、图像识别方法及装置
CN116187398B (zh) 一种无人机海洋图像检测用轻量神经网络搭建方法及设备
CN106056379A (zh) 一种支付终端及支付数据处理方法
CN111242034A (zh) 一种单据的图像处理方法、装置、处理设备及客户端
CN114677517B (zh) 一种无人机用语义分割网络模型及图像分割识别方法
CN116863286B (zh) 一种双流目标检测方法及其模型搭建方法
CN111523599B (zh) 目标检测方法及装置、电子设备和存储介质
CN113313115B (zh) 车牌属性识别方法及装置、电子设备和存储介质
CN112269939B (zh) 自动驾驶的场景搜索方法、装置、终端、服务器及介质
CN116611482B (zh) 模型训练方法、装置、电子设备及介质
CN116912478A (zh) 目标检测模型构建、图像分类方法、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant