CN113326837A - 基于深度学习的飞机挂架检测方法以及终端设备 - Google Patents

基于深度学习的飞机挂架检测方法以及终端设备 Download PDF

Info

Publication number
CN113326837A
CN113326837A CN202110673756.2A CN202110673756A CN113326837A CN 113326837 A CN113326837 A CN 113326837A CN 202110673756 A CN202110673756 A CN 202110673756A CN 113326837 A CN113326837 A CN 113326837A
Authority
CN
China
Prior art keywords
convolution module
convergence
convolution
output
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110673756.2A
Other languages
English (en)
Other versions
CN113326837B (zh
Inventor
姜晓恒
徐明亮
吴欣怡
崔丽莎
吕培
周兵
郭毅博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202110673756.2A priority Critical patent/CN113326837B/zh
Publication of CN113326837A publication Critical patent/CN113326837A/zh
Application granted granted Critical
Publication of CN113326837B publication Critical patent/CN113326837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度学习的飞机挂架检测方法以及终端设备;包括步骤:构建模型,训练模型包括前后级联的多个卷积模块,在第一卷积模块之后,至少有一个卷积模块的输入端和输出端之间设置有短连接通道,短连接通道的输出特征与卷积模块的输出特征通过加法器进行特征汇聚,汇聚的结果输入到下一个卷积模块;模型收敛,对训练模型进行训练,获得收敛模型;挂架检测,将获取的飞机的图像数据输入到收敛模型,由收敛模型输出与飞机上的挂架相适配的预测框。通过短连接通道和跳跃连接通道将卷积模块的输出特征进行汇聚,能够将底层特征汇聚到深层特征中,达到更优的特征表示,提升训练模型对飞机挂架检测的性能。准确的检测出图像数据中的挂架。

Description

基于深度学习的飞机挂架检测方法以及终端设备
技术领域
本发明涉及飞机挂架检测方法的技术领域,尤其涉及一种基于深度学习的飞机挂架检测方法以及终端设备。
背景技术
目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。因此,目标检测也就成为了近年来理论和应用的研究热点,它是图像处理和计算机视觉学科的重要分支,也是智能监控***的核心部分,同时目标检测也是泛身份识别领域的一个基础性的算法,对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。
飞机挂架检测与一般的检测目标相比,有如下特点:(1)飞机挂架目标较小。图像数据的大小为1600×900,飞机挂架的大小约为100×60,在整个图像数据中占的比例比较小。(2)飞机挂架的外观存在多样性。由于采集视角的不同,采集的距离不同,不同飞机的挂架呈现不同的外观。针对上述特点,利用现有的基于深度学习的目标检测的方法进行检测,其检测精度较低。
发明内容
本发明主要解决的技术问题是提供一种基于深度学习的飞机挂架检测方法以及终端设备,解决图像数据中占的比例比较小、飞机挂架的外观存在多样性而使对挂架的检测精度较低的问题。
为解决上述技术问题,本发明采用的一个技术方案是提供一种基于深度学习的飞机挂架检测方法,包括步骤:
构建模型,训练模型包括前后级联的多个卷积模块,在第一卷积模块之后,至少有一个卷积模块的输入端和输出端之间设置有短连接通道,所述短连接通道的输出特征与所述卷积模块的输出特征通过加法器进行特征汇聚,汇聚的结果输入到下一个卷积模块;模型收敛,对所述训练模型进行训练,获得收敛模型;挂架检测,将获取的飞机的图像数据输入到所述收敛模型,由所述收敛模型输出与所述飞机上的挂架相适配的预测框。
优选的,所述卷积模块包括位于初始位置的第一卷积模块、位于中间位置的汇聚卷积模块和位于后部位置的附加卷积模块,所述短连接通道设置在所述汇聚卷积模块的输入端和输出端之间。
优选的,所述汇聚卷积模块i的输出特征
Figure BDA0003119851450000021
为:i≥1
Figure BDA0003119851450000022
其中:
Figure BDA0003119851450000023
表示第i个所述汇聚卷积模块S的输出特征,P表示所述汇聚卷积模块的池化操作;F为所述汇聚卷积模块中的卷积单元的函数,
Figure BDA0003119851450000024
表示第i个所述汇聚卷积模块的输入特征;ω表示所述汇聚卷积模块的卷积参数;
所述汇聚卷积模块i的输入端与输出端之间连接的所述短连接通道输出结果为
Figure BDA0003119851450000025
Figure BDA0003119851450000026
Figure BDA0003119851450000027
其中,Yo表示所述第一卷积模块C1的输出特征,
Figure BDA0003119851450000028
表示所述汇聚卷积模块i的输入端的输入特征,ωsc为所述短连接通道的卷积操作;
所述加法器的输出即为紧邻其后的所述卷积模块的输入
Figure BDA0003119851450000029
表示为:
Figure BDA00031198514500000210
优选的,所述汇聚卷积模块至少包括两个,在所述第一卷积模块的输出端与第二汇聚卷积模块的输出端之间,以及在所述第一卷积模块的输出端与第二汇聚卷积模块之后的汇聚卷积模块的输出端之间,分别设置有跳跃连接通道,所述跳跃连接通道输出的特征,通过对应的所述汇聚卷积模块的输出端连接的所述加法器进行特征汇聚。
优选的,第i+1汇聚卷积模块对应的所述跳跃连接通道卷积操作后的输出结果为
Figure BDA00031198514500000211
Figure BDA00031198514500000212
其中:Yo表示所述第一卷积模块的输出特征向量,ωsk为所述跳跃连接通道的卷积操作;
Figure BDA00031198514500000213
Figure BDA00031198514500000214
表示为:
Figure BDA0003119851450000031
其中:
Figure BDA0003119851450000032
表示第i+1个所述汇聚卷积模块的输出特征,
Figure BDA0003119851450000033
表示第i+1个所述汇聚卷积模块对应的所述短连接通道的卷积操作后的输出结果。
优选的,在训练模型中,预设默认框,所述默认框的宽度和高度记为:
Figure BDA0003119851450000034
Figure BDA0003119851450000035
其中:wm为所述默认框的宽度,hm为所述默认框的高度,m为得出所述默认框的一卷积模块的序号。
优选的,所述默认框的高宽比ar为:
ar∈{1,2,3,1/2,1/3};
当所述高宽比ar为1时,所述默认框的尺寸为:
Figure BDA0003119851450000036
当所述高宽比ar为2时,所述默认框的尺寸为:
Figure BDA0003119851450000037
当所述高宽比ar为3时,所述默认框的尺寸为:
Figure BDA0003119851450000038
当所述高宽比ar为1/2时,所述默认框的尺寸为:
Figure BDA0003119851450000039
当所述高宽比ar为1/3时,所述默认框的尺寸为:
Figure BDA00031198514500000310
优选的,所述预测框的尺寸为:
pcx=dw*(variance[v0]*lcx)+dcx
pcy=dh*(variance[v1]*lcy)+dcy
pcw=dw*(variance[v2]*lw);
pch=dh*(variance[v3]*lh);
其中:pcx,pcy表示所述预测框的中心点的x,y的坐标点;pcw表示所述预测框的宽度;pch表示所述预测框的高度;dcx,dcy表示所述默认框的中心点的x,y的坐标点;dw表示所述默认框的宽度;dh表示所述默认框的高度;variance表示缩放,v0,v1,v2,v3表示variance中预设的缩放参数;lcx,lcy表示所述默认框的中心点在x,y上的偏移量,lw表示所述默认框宽度的偏移量,lh表示所述默认框高度的偏移量。
优选的,所述训练模型输出置信度和偏移量,通过目标损失函数优化置信度和偏移量,训练所述训练模型;
所述目标损失函数是位置损失与置信度损失的加权和:
Figure BDA0003119851450000041
其中:Lconf和Lloc分别为置信度损失函数和位置损失函数;j表示预测框与真实框相匹配的雅可比重叠系数,z为分类类别的置信度,p为所述预测框的参数,包括所述预测框的中心坐标,所述预测框的宽,以及所述预测框的高;g表示所述真实框的参数,包括所述真实框的中心坐标,所述真实框的宽,以及所述真实框的高,N为所述预测框与所述真实框的重叠值大于0.5的个数,α为权重系数。
一种终端设备,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现上述的基于深度学习的飞机挂架检测方法。
本发明的有益效果是:本发明公开了一种基于深度学习的飞机挂架检测方法以及终端设备。该方法通过短连接通道和跳跃连接通道将卷积模块的输出特征进行汇聚,能够将底层特征汇聚到深层特征中,达到更优的特征表示,提升训练模型对飞机挂架检测的性能。并对训练模型进行训练,对置信度和偏移量进行优化,获得收敛模型。将图像数据输入到收敛模型,即可通过收敛模型获得与挂架适配的预测框,并根据置信度确定预测框内的类别是什么,准确的检测出图像数据中的挂架。
附图说明
图1是根据本发明基于深度学习的飞机挂架检测方法一实施例的流程图;
图2是根据本发明基于深度学习的飞机挂架检测方法一实施例的结构图;
图3是根据本发明基于深度学习的飞机挂架检测方法一实施例的短连接通道的流程图;
图4是根据本发明基于深度学习的飞机挂架检测方法一实施例的跳跃接通道的流程图;
图5是本申请提供的终端设备一实施例的框架示意图;
图6是本申请提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限值本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
图1显示了本发明基于深度学习的飞机挂架检测方法的实施例,包括:
步骤S1:构建模型,训练模型包括前后级联的多个卷积模块,在第一卷积模块之后,至少有一个卷积模块的输入端和输出端之间设置有短连接通道,所述短连接通道的输出特征与所述卷积模块的输出特征通过加法器进行特征汇聚,汇聚的结果输入到下一个卷积模块;
步骤S2:模型收敛,对所述训练模型进行训练,获得收敛模型;
步骤S3:挂架检测,将获取的飞机的图像数据输入到所述收敛模型,由所述收敛模型输出与所述飞机上的挂架相适配的预测框。
通过短连接通道能够确保训练模型前端的卷积模块所提取的细节特征一步一步的传递到训练模型后端的卷积模块中,即将前端卷积模块获得的细节特征汇聚到后端的卷积模块中,弥补训练模型所提取的特征中细节特征的缺失。从而能够使得图像中的特征表达能力更强,有利于对挂架的检测。
优选的,如图2所示,卷积模块包括位于初始位置的第一卷积模块C1、位于中间位置的汇聚卷积模块和位于后部位置的附加卷积模块,所述短连接通道SC设置在所述汇聚卷积模块的输入端和输出端之间。
优选的,第一卷积模块C1设置有1个。
优选的,汇聚卷积模块设置有6个,分别为第一汇聚卷积模块C2、第二汇聚卷积模块C3、第三汇聚卷积模块C4、第四汇聚卷积模块C5、第五汇聚卷积模块C6和第六汇聚卷积模块C7。
优选的,第一卷积模块C1和第一汇聚卷积模块C2中依次包括有两个卷积单元和一个池化单元。
优选的,第二汇聚卷积模块C3、第三汇聚卷积模块C4和第四汇聚卷积模块C5中依次包括有三个卷积单元和一个池化单元。
优选的,第五汇聚卷积模块C6和第六汇聚卷积模块C7中依次包括有两个卷积单元。
优选的,第一卷积模块C1、第一汇聚卷积模块C2、第二汇聚卷积模块C3、第三汇聚卷积模块C4、第四汇聚卷积模块C5、第五汇聚卷积模块C6和第六汇聚卷积模块C7中最后一个卷积单元包括卷积层,其他卷积单元依次包括卷积层和激活层。
优选的,卷积层均选用3*3的卷积核。对图像数据进行特征提取时,具有较高的提取效率。
优选的,池化单元均包括池化层。
优选的,第一卷积模块C1和汇聚卷积模块的池化层的参数为2,使得池化后特征图的分辨率是该汇聚卷积模块前的1/2。
通过池化层进行下采样,去除图像数据中不重要的特征,减少特征的数量。提取图像数据的特征。优选的,可由第二汇聚卷积模块C3、第三汇聚卷积模块C4、第四汇聚卷积模块C5、第五汇聚卷积模块C6或第六汇聚卷积模块C7输出特征图。
优选的,附加卷积模块包括有3个,分别为第一附加卷积模块C8、第二附加卷积模块C9和第三附加卷积模块C10。
优选的,第一附加卷积模块C8、第二附加卷积模块C9和第三附加卷积模块C10中包括有两个卷积单元。
优选的,第一附加卷积模块C8、第二附加卷积模块C9和第三附加卷积模块C10中第一个卷积单元依次包括卷积层和激活层,最后一个卷积单元包括卷积层。
优选的,可由第一附加卷积模块C8、第二附加卷积模块C9或第三附加卷积模块C10输出特征图。
通过附加卷积模块中的卷积层进行下采样。附加卷积模块能够对特征图中的特征做进一步处理,增加训练模型对图像数据的感受野,使由训练模型得到的特征图承载更多特征。
如果仅仅通过汇聚卷积模块和附加卷积模块对数据连续使用下采样,必然会导致浅层纹理,边角等细节特征的缺失。
因此,本发明中,如图2和图3中所示,通过短连接通道SC能够确保训练模型前端所提取的细节特征一步一步的传递到训练模型的后端,即将前端的特征汇聚到后端,弥补训练模型提取特征时细节特征的缺失。
优选的,在第一卷积模块C1下采样结束后,设立短连接通道SC,将当前卷积模块的输入汇聚到当前卷积模块的输出中,实现卷积模块的输入和输出特征的汇聚,弥补下采样带来的细节信息的缺失。
优选的,汇聚卷积模块中输出的特征与短连接通道SC输出的特征通过加法器Ad进行汇聚。
优选的,短连接通道SC为卷积操作。
优选的,短连接通道SC是步长为2的1×1的卷积。由此可将输入的特征图的通道维度变成原来的2倍,将特征图的分辨率变化为原来的1/2。
在上述中第一卷积模块C1和汇聚卷积模块中池化层的参数为2,使得池化后特征图的分辨率是该汇聚卷积模块前的1/2。对应的短连接通道SC是步长为2的1×1的卷积。将特征图的分辨率变化为原来的1/2。
由此将汇聚卷积模块输出的特征图与短连接通道SC输出的特征图在维度和分辨率上保持一致,可以直接进行像素级相加操作,实现卷积模块的输入和输出特征的汇聚。
第一卷积模块C1输出的特征图中的特征为底层特征,底层特征中包括较多的细节特征。后续的汇聚卷积模块和附加卷积模块输出的特征图中的特征均为深层特征,深层特征中包括检测特征。检测特征可以为飞机的机翼、机轮、挂架等需要检测识别的特征。优选的,检测特征为挂架的特征。
随着图像数据经过卷积模块的特征提取,图像数据中的特征会越来越少,相对于飞机来说,飞机的挂架目标较小,在整个图像数据中占的比例比较小。也使得图像数据在经过卷积模块的特征提取时,很容易丢失挂架的特征,且这种丢失是不可逆的。
为了解决上述问题,进一步的,如图2和图4中所示,本发明中的训练模型中,所述汇聚卷积模块至少包括两个,在所述第一卷积模块的输出端与第二汇聚卷积模块的输出端之间,以及在所述第一卷积模块的输出端与第二汇聚卷积模块之后的汇聚卷积模块的输出端之间,分别设置有跳跃连接通道SK,所述跳跃连接通道SK输出的特征,通过对应的所述汇聚卷积模块的输出端连接的所述加法器Ad进行特征汇聚。
通过跳跃连接通道SK,能够将第一卷积模块C1中的底层特征汇聚到汇聚卷积模块中的深层特征中,允许底层特征直接收敛到深层特征。使得深层特征的表达能力更强,缓解信息丢失带来的检测误差,有利于挂架这种小目标的检测。
优选的,跳跃连接通道SK为卷积操作。
优选的,跳跃连接通道SK是步长为2N的1×1的卷积。N为间隔的卷积模块的个数。由此可将输入的特征图的维度变成原来的2N倍,将特征图的分辨率变化为原来的1/2N。由此可以确保卷积模块输出的特征图与跳跃连接通道SK输出的特征图在维度和分辨率上保持一致,可以直接进行像素级相加操作,实现卷积模块的输入和输出特征的汇聚。
通过短连接通道SC和跳跃连接通道SK,将底层特征汇聚到深层特征中,达到更优的特征表示,提升训练模型对飞机挂架检测的性能。
所述汇聚卷积模块i的输出特征
Figure BDA0003119851450000081
为:i≥1
Figure BDA0003119851450000082
其中:
Figure BDA0003119851450000083
表示第i个所述汇聚卷积模块S的输出特征,P表示所述汇聚卷积模块的池化操作;F为所述汇聚卷积模块中的卷积单元的函数,
Figure BDA0003119851450000084
表示第i个所述汇聚卷积模块的输入特征;ω表示所述汇聚卷积模块的卷积参数。
当汇聚卷积模块中的卷积单元为2个时,F记为F2,F2表示为:
F2=ω2(σ(ω1*x+b1))+b2,
当汇聚卷积模块中的卷积单元为3个时,F记为F3,F3表示为:
F3=ω3(σ(ω2(σ(ω1*X+b1))+b2))+b3
F3=ω3(σ(F2))+b3,
当汇聚卷积模块中的卷积单元为n个时,F记为Fn,Fn表示为:
Fn=ωn(σ(F(n-1)))+bn;
其中,σ表示卷积单元中激活层的函数,x为卷积层的输入,ω1、b1,ω2、b2,ω3、b3和ωn、bn分别表示汇聚卷积模块的卷积单元中卷积层各层的权重值和偏差。
所述汇聚卷积模块i的输入端与输出端之间连接的所述短连接通道输出结果为
Figure BDA0003119851450000091
Figure BDA0003119851450000092
Figure BDA0003119851450000093
其中,Yo表示所述第一卷积模块的输出特征,
Figure BDA0003119851450000094
表示所述汇聚卷积模块i的输入端的输入特征,ωsc为所述短连接通道的卷积操作。
所述加法器Ad的输出即为紧邻其后的所述卷积模块的输入
Figure BDA0003119851450000095
表示为:
Figure BDA0003119851450000096
优选的,卷积模块输出的特征和短连接通道SC输出的特征输入到加法器Ad。加法器Ad将卷积模块输出的特征和短连接通道SC输出的特征汇聚后输出。加法器Ad的输出即为紧邻其后的卷积模块的输入。
优选的,加法器Ad包括叠加层和激活层,如图3和图4所示。
优选的,第i+1汇聚卷积模块对应的所述跳跃连接通道卷积操作后的输出结果为
Figure BDA0003119851450000097
Figure BDA0003119851450000098
其中:Yo表示所述第一卷积模块的输出特征向量,ωsk为所述跳跃连接通道的卷积操作。
所述加法器的输出即为紧邻其后的所述卷积模块的输入
Figure BDA0003119851450000099
表示为:
Figure BDA00031198514500000910
其中:
Figure BDA00031198514500000911
表示第i+1个所述汇聚卷积模块的输出特征,
Figure BDA00031198514500000912
表示第i+1个所述汇聚卷积模块对应的所述短连接通道的卷积操作后的输出结果。
由此,本发明中的卷积模块通过短连接通道SC和跳跃连接通道SK,将底层特征汇聚到深层特征中,提高每个卷积模块的特征表示,提升训练模型对飞机挂架检测的性能。
进一步的,在卷积模块中,预设默认框。优选的,默认框可在训练模型中的C3-C10进行预设,在这8个卷积模块中,依次输出不同尺度和比例的偏移量。特征图的感受野逐渐增大,对于前面融合底层特征的感受野较小的特征图,可设置较小尺寸的默认框,后面感受野大的特征图,可设置较大尺寸的默认框。由此可获得多样性的默认框,适用与在图像数据中不同大小比例的挂架。
优选的,默认框的宽度和高度记为:
Figure BDA0003119851450000101
Figure BDA0003119851450000102
其中:wm为默认框的宽度,hm为默认框的高度,m为得出默认框的一卷积模块的序号,即C3-C10中的一卷积模块。
优选的,8个卷积模块中,默认框的宽度和/或高度的最小尺寸Smin依次为:
Smin[8]={20,35,76,153,230,307,384,460}。
优选的,8个卷积模块中,默认框的宽度和/或高度的最大尺寸Smax依次为:
Smax[8]={35,76,153,230,307,834,460,537}。
优选的,特征图中每个位置具有不同比例的预测框Pr。
优选的,默认框的高宽比ar记为:
ar∈{1,2,3,1/2,1/3};
当默认框的高宽比为1时,wm=hm
优选的,每个特征图中每个位置具有的6个不同尺寸的默认框。
优选的,当高宽比为1时,具有两种尺寸的默认框。
优选的,当高宽比为1时,默认框的尺寸为:
Figure BDA0003119851450000103
优选的,当高宽比为2时,默认框的尺寸为:
Figure BDA0003119851450000104
优选的,当高宽比为3时,默认框的尺寸为:
Figure BDA0003119851450000105
优选的,当高宽比为1/2时,默认框的尺寸为:
Figure BDA0003119851450000106
优选的,当高宽比为1/3时,默认框的尺寸为:
Figure BDA0003119851450000107
例如:在第二汇聚卷积模块C3特征汇聚后,特征图的大小为64×64,特征图的每个位置会产生6个不同比例的默认框,因此共产生64×64×6个默认框。
优选的,将图像数据输入到训练模型中,由训练模型输出置信度和偏移量。可以利用6(c+4)个滤波器作用于特征图的每个默认框,预测相对于该默认框的偏移量,以及预测置信度,其中c为类别数。由偏移量获得涵盖特征图中一类别特征的预测框Pr,由置信度确定预测框Pr内的特征的类别。
如图2所示,将偏移量解码获得多个预测框Pr,对多个预测框Pr进行筛选获得适配挂架的预测框Pr。预测框Pr的尺寸表示为:
pcx=dw*(variance[v0]*lcx)+dcx
pcy=dh*(variance[v1]*lcy)+dcy
pcw=dw*(variance[v2]*lw);
pch=dh*(variance[v3]*lh);
其中:pcx,pcy表示所述预测框的中心点的x,y的坐标点;pcw表示所述预测框的宽度;pch表示所述预测框的高度;dcx,dcy表示所述默认框的中心点的x,y的坐标点;dw表示所述默认框的宽度;dh表示所述默认框的高度;variance表示缩放,v0,v1,v2,v3表示variance中预设的缩放参数;lcx,lcy表示所述默认框的中心点在x,y上的偏移量,lw表示所述默认框宽度的偏移量,lh表示所述默认框高度的偏移量。
通过目标损失函数优化预测框,训练所述训练模型;完成训练,获得收敛模型。目标损失函数是一个位置损失与置信度损失的加权和:
Figure BDA0003119851450000111
其中:Lcnf和Lloc分别为置信度损失函数和位置损失函数;j表示预测框与真实框相匹配的雅可比重叠系数,z为分类类别的置信度,p为所述预测框的参数,包括所述预测框的中心坐标,所述预测框的宽,以及所述预测框的高;g表示所述真实框的参数,包括所述真实框的中心坐标,所述真实框的宽,以及所述真实框的高,N为所述预测框与所述真实框的重叠值大于0.5的个数,α为权重系数。
优选的,Lconf置信度损失是softmax多类别分类损失函数,Lloc位置损失为smoothL1损失函数。
进一步的,真实框为在对训练模型进行训练前,在数据图像中标注的最小外接矩形,该真实框涵盖准确的类别。当对挂架进行检测时,在数据图像中,人工使用真实框标注挂架,真实框为挂架的最小外接矩形。
获得预测框后,由非极大值扼制法NMS对预测框进行筛选,获得最优的预测框Pr。
由置信度确定预测框Pr中特征的类别,置信度越高,属于该类别的概率越高。
优选的,类别可以包括飞机的机翼、飞机的机轮、飞机的挂架等等。
优选的,图像数据中的类别的个数有m个,表示为(1,2,……,m),训练模型输出每个类别的概率,表示为(g1,g2,……,gm),且g1+g2+……+gm=1。由类别中值最大的概率,确定预测框Pr中的类别。例如,当g2为(g1,g2,……,gm)中的最大值时,确定预测框Pr中的类别为2。
由置信度可以确定数据图像中预测框Pr内的特征属于什么类别。
将图像数据输入到收敛模型,即可通过收敛模型获得与挂架适配的预测框Pr,并根据置信度确定预测框Pr内的类别是什么,从而能够准确的检测出图像数据中的挂架。
由此可见,本发明公开了一种基于深度学习的飞机挂架检测方法。该方法通过短连接通道SC和跳跃连接通道SK将卷积模块的输出特征进行汇聚,能够将底层特征汇聚到深层特征中,达到更优的特征表示,提升训练模型对飞机挂架检测的性能。并对训练模型进行训练,对置信度和偏移量进行优化,获得收敛模型。将图像数据输入到收敛模型,即可通过收敛模型获得与挂架适配的预测框,并根据置信度确定预测框内的类别是什么,准确的检测出图像数据中的挂架。
具体而言,请参阅图5,处理器52用于控制其自身以及存储器51以实现上述任一基于深度学习的飞机挂架检测方法实施例的步骤。处理器52还可以称为CPU(CentralProcessing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。
请参阅图6,图6是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601,程序指令601用于实现上述任一基于深度学习的飞机挂架检测方法实施例的步骤。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的实施例,并非因此限值本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于深度学习的飞机挂架检测方法,其特征在于,包括步骤:
构建模型,训练模型包括前后级联的多个卷积模块,在第一卷积模块之后,至少有一个卷积模块的输入端和输出端之间设置有短连接通道,所述短连接通道的输出特征与所述卷积模块的输出特征通过加法器进行特征汇聚,汇聚的结果输入到下一个卷积模块;
模型收敛,对所述训练模型进行训练,获得收敛模型;
挂架检测,将获取的飞机的图像数据输入到所述收敛模型,由所述收敛模型输出与所述飞机上的挂架相适配的预测框。
2.根据权利要求1所述的基于深度学习的飞机挂架检测方法,其特征在于,所述卷积模块包括位于初始位置的第一卷积模块、位于中间位置的汇聚卷积模块和位于后部位置的附加卷积模块,所述短连接通道设置在所述汇聚卷积模块的输入端和输出端之间。
3.根据权利要求2所述的基于深度学习的飞机挂架检测方法,其特征在于,所述汇聚卷积模块i的输出特征
Figure FDA0003119851440000011
为:i≥1
Figure FDA0003119851440000012
其中:
Figure FDA0003119851440000013
表示第i个所述汇聚卷积模块S的输出特征,P表示所述汇聚卷积模块的池化操作;F为所述汇聚卷积模块中的卷积单元的函数,
Figure FDA0003119851440000014
表示第i个所述汇聚卷积模块的输入特征;ω表示所述汇聚卷积模块的卷积参数;
所述汇聚卷积模块i的输入端与输出端之间连接的所述短连接通道输出结果为
Figure FDA0003119851440000015
Figure FDA0003119851440000016
Figure FDA0003119851440000017
其中,Yo表示所述第一卷积模块C1的输出特征,
Figure FDA0003119851440000018
表示所述汇聚卷积模块i的输入端的输入特征,ωsc为所述短连接通道的卷积操作;
所述加法器的输出即为紧邻其后的所述卷积模块的输入
Figure FDA0003119851440000019
表示为:
Figure FDA00031198514400000110
4.根据权利要求3所述的基于深度学习的飞机挂架检测方法,其特征在于,所述汇聚卷积模块至少包括两个,在所述第一卷积模块的输出端与第二汇聚卷积模块的输出端之间,以及在所述第一卷积模块的输出端与第二汇聚卷积模块之后的汇聚卷积模块的输出端之间,分别设置有跳跃连接通道,所述跳跃连接通道输出的特征,通过对应的所述汇聚卷积模块的输出端连接的所述加法器进行特征汇聚。
5.根据权利要求4所述的基于深度学习的飞机挂架检测方法,其特征在于,第i+1汇聚卷积模块对应的所述跳跃连接通道卷积操作后的输出结果为
Figure FDA0003119851440000021
Figure FDA0003119851440000022
其中:Yo表示所述第一卷积模块的输出特征向量,ωsk为所述跳跃连接通道的卷积操作;
所述加法器的输出即为紧邻其后的所述卷积模块的输入
Figure FDA0003119851440000023
表示为:
Figure FDA0003119851440000024
其中:
Figure FDA0003119851440000025
表示第i+1个所述汇聚卷积模块的输出特征,
Figure FDA0003119851440000026
表示第i+1个所述汇聚卷积模块对应的所述短连接通道的卷积操作后的输出结果。
6.根据权利要求1-5所述的基于深度学习的飞机挂架检测方法,其特征在于,在训练模型中,预设默认框,所述默认框的宽度和高度记为:
Figure FDA0003119851440000027
Figure FDA0003119851440000028
其中:wm为所述默认框的宽度,hm为所述默认框的高度,m为得出所述默认框的一卷积模块的序号。
7.根据权利要求6所述的基于深度学习的飞机挂架检测方法,其特征在于,所述默认框的高宽比ar为:
ar∈{1,2,3,1/2,1/3};
当所述高宽比ar为1时,所述默认框的尺寸为:
Figure FDA0003119851440000029
Figure FDA00031198514400000210
当所述高宽比ar为2时,所述默认框的尺寸为:
Figure FDA00031198514400000211
当所述高宽比ar为3时,所述默认框的尺寸为:
Figure FDA00031198514400000212
当所述高宽比ar为1/2时,所述默认框的尺寸为:
Figure FDA0003119851440000031
当所述高宽比ar为1/3时,所述默认框的尺寸为:
Figure FDA0003119851440000032
8.根据权利要求7所述的基于深度学习的飞机挂架检测方法,其特征在于,所述预测框的尺寸为:
pcx=dw*(variance[v0]*lcx)+dcx
pcy=dh*(variance[v1]*lcy)+dcy
pcw=dw*(variance[v2]*lw);
pch=dh*(variance[v3]*lh);
其中:pcx,pcy表示所述预测框的中心点的x,y的坐标点;pcw表示所述预测框的宽度;pch表示所述预测框的高度;dcx,dcy表示所述默认框的中心点的x,y的坐标点;dw表示所述默认框的宽度;dh表示所述默认框的高度;variance表示缩放,v0,v1,v2,v3表示variance中预设的缩放参数;lcx,lcy表示所述默认框的中心点在x,y上的偏移量,lw表示所述默认框宽度的偏移量,lh表示所述默认框高度的偏移量。
9.根据权利要求8所述的基于深度学习的飞机挂架检测方法,其特征在于,所述训练模型输出置信度和偏移量,通过目标损失函数优化置信度和偏移量,训练所述训练模型;
所述目标损失函数是位置损失与置信度损失的加权和:
Figure FDA0003119851440000033
其中:Lconf和Lloc分别为置信度损失函数和位置损失函数;j表示预测框与真实框相匹配的雅可比重叠系数,z为分类类别的置信度,p为所述预测框的参数,包括所述预测框的中心坐标,所述预测框的宽,以及所述预测框的高;g表示所述真实框的参数,包括所述真实框的中心坐标,所述真实框的宽,以及所述真实框的高,N为所述预测框与所述真实框的重叠值大于0.5的个数,α为权重系数。
10.一种终端设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至9任一项所述的基于深度学习的飞机挂架检测方法。
CN202110673756.2A 2021-06-17 2021-06-17 基于深度学习的飞机挂架检测方法以及终端设备 Active CN113326837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110673756.2A CN113326837B (zh) 2021-06-17 2021-06-17 基于深度学习的飞机挂架检测方法以及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110673756.2A CN113326837B (zh) 2021-06-17 2021-06-17 基于深度学习的飞机挂架检测方法以及终端设备

Publications (2)

Publication Number Publication Date
CN113326837A true CN113326837A (zh) 2021-08-31
CN113326837B CN113326837B (zh) 2022-11-01

Family

ID=77423695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110673756.2A Active CN113326837B (zh) 2021-06-17 2021-06-17 基于深度学习的飞机挂架检测方法以及终端设备

Country Status (1)

Country Link
CN (1) CN113326837B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710913A (zh) * 2018-05-21 2018-10-26 国网上海市电力公司 一种基于深度学习的开关柜图像开关状态自动识别方法
KR20190080388A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 Cnn을 이용한 영상 수평 보정 방법 및 레지듀얼 네트워크 구조
CN109993293A (zh) * 2019-02-28 2019-07-09 中山大学 一种适用于堆叠式沙漏网络的深度学习加速器
CN110598673A (zh) * 2019-09-24 2019-12-20 电子科技大学 基于残差网络的遥感图像道路提取方法
CN110672091A (zh) * 2019-09-29 2020-01-10 哈尔滨飞机工业集团有限责任公司 一种时间域飞机柔性拖曳吊舱定位***
CN111860003A (zh) * 2020-07-21 2020-10-30 济南大学 基于密集连接深度残差网络的图像去雨方法及***
CN112785578A (zh) * 2021-01-26 2021-05-11 汕头大学 一种基于u型编码解码器神经网络的道路裂缝检测方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080388A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 Cnn을 이용한 영상 수평 보정 방법 및 레지듀얼 네트워크 구조
CN108710913A (zh) * 2018-05-21 2018-10-26 国网上海市电力公司 一种基于深度学习的开关柜图像开关状态自动识别方法
CN109993293A (zh) * 2019-02-28 2019-07-09 中山大学 一种适用于堆叠式沙漏网络的深度学习加速器
CN110598673A (zh) * 2019-09-24 2019-12-20 电子科技大学 基于残差网络的遥感图像道路提取方法
CN110672091A (zh) * 2019-09-29 2020-01-10 哈尔滨飞机工业集团有限责任公司 一种时间域飞机柔性拖曳吊舱定位***
CN111860003A (zh) * 2020-07-21 2020-10-30 济南大学 基于密集连接深度残差网络的图像去雨方法及***
CN112785578A (zh) * 2021-01-26 2021-05-11 汕头大学 一种基于u型编码解码器神经网络的道路裂缝检测方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KAIMING HE ET AL.: "Deep Residual Learning for Image Recognition", 《ARXIV:1512.03385V1》 *
LISHA CUI ET AL.: "SDDNet: A Fast and Accurate Network for Surface Defect Detection", 《IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT》 *
YULUN ZHANG ET AL.: "Residual Dense Network for Image Super-Resolution", 《ARXIV:1802.08797V2》 *
陈敏: "融合文本和短视频的双模态情感分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN113326837B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN109410242B (zh) 基于双流卷积神经网络的目标跟踪方法、***、设备及介质
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN110619655B (zh) 一种融合光流信息和Siamese框架的目标跟踪方法及装置
CN109741331B (zh) 一种图像前景物体分割方法
JP4686663B2 (ja) 歩行者トラッキング方法及び歩行者トラッキング装置
CN111144376B (zh) 视频目标检测特征提取方法
CN111027372A (zh) 一种基于单目视觉与深度学习的行人目标检测识别方法
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN115147456B (zh) 一种基于时序自适应卷积与注意力机制的目标跟踪方法
CN103268482B (zh) 一种低复杂度的手势提取和手势深度获取方法
CN106886986A (zh) 基于自适应组结构稀疏字典学习的图像融合方法
Kumar et al. 3D sign language recognition using spatio temporal graph kernels
CN109784358A (zh) 一种融合人工特征和深度特征的无参考图像质量评价方法
CN109272577A (zh) 一种基于Kinect的视觉SLAM方法
CN107609571A (zh) 一种基于lark特征的自适应目标跟踪方法
CN114255434A (zh) 一种多目标跟踪方法及装置
CN112183649A (zh) 一种用于对金字塔特征图进行预测的算法
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN111126250A (zh) 一种基于ptgan的行人重识别方法及装置
CN104331700B (zh) 基于轨迹能量扩散图的组行为识别方法
CN113326837B (zh) 基于深度学习的飞机挂架检测方法以及终端设备
Zhang et al. Multi-scale pedestrian detection using skip pooling and recurrent convolution
KR102553851B1 (ko) 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템
KR20230083212A (ko) 객체 자세 추정 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant