CN113780462A

CN113780462A - 基于无人机航拍图像的车辆检测网络建立方法及其应用

Info

Publication number: CN113780462A
Application number: CN202111119764.9A
Authority: CN
Inventors: 许毅平; 田岩; 李若男
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-10
Anticipated expiration: 2041-09-24
Also published as: CN113780462B

Abstract

本发明公开了基于无人机航拍图像的车辆检测网络建立方法及其应用，属于车辆检测领域，包括：建立车辆检测网络，并利用航拍数据集训练对其进行训练；航拍数据集中的训练样本为已标注车辆位置及类别的航拍图像；车辆检测网络为深度学习神经网络，其以图像为输入，用于预测输入的图像中车辆的位置和类别，并输出预测置信度；训练损失函数为：L_total＝L_loc+L_cls+L_disc；L_loc为回归损失，L_cls为分类损失；L_disc为类间可鉴别损失，用于表示训练样本在特征空间中的分布情况，且同类训练样本的特征分布越聚集、不同类训练样本的特征分布越分散，类间可鉴别损失L_disc越小；训练结束后，完成车辆检测网络的建立。本发明能够建立更为准确的车辆检测网络，提升车辆检测的精度。

Description

基于无人机航拍图像的车辆检测网络建立方法及其应用

技术领域

本发明属于车辆检测领域，更具体地，涉及一种基于无人机航拍图像的车辆检测网络建立方法及其应用。

背景技术

无人机航拍图像的车辆特征提取和检测是一个重要的分支，也是一个难点。无人机航拍图像车辆检测是指通过无人机航拍获取RGB图像，对车辆在图像中的位置和类别进行预测。相比于传统固定摄像机拍摄的交通图像，无人机航拍图像的监控视角更广、拍摄高度不一，相应地会带来图像的背景复杂多样、车辆尺度变化较大以及车辆类别分布不均等问题，如何快速正确地检测出图像中的车辆成为一个富有挑战性的课题。

车辆检测的本质是提取有鉴别性的特征，完成车辆分类和回归任务。相较于传统的目标检测方法，基于深度学习的方法在特征提取和分类回归上有着明显的优势，所以现有的无人机航拍图像车辆检测方法大多是在通用检测算法的基础上进行改进。

目标检测的分类任务要求提取到的特征包含更多的高级信息，回归任务要求特征包含更多的位置、细节信息，但这两种要求在同一个特征图上很难同时兼得。特征提取网络中，浅层的特征分辨率更高，含有丰富的位置、细节信息，更适用于小目标的检测；但是其语义信息较低，含噪声较多，不适合用于目标分类任务，可能会造成大量的虚检。而深层特征更抽象，具有更强的语义信息，更适用于目标分类任务；但由于其感受野更大，特征分辨率更低，导致对细节的感知能力较差，并不适用于小目标的定位。所以，对深浅层特征进行融合，构建特征金字塔，各取所长，能够有效地增强浅层特征的高级特征信息，提升目标检测，尤其是小目标检测的精度。在基于金字塔的特征融合方面，现有的融合方式主要采用简单的等权重相加处理或通道合并处理，这些方法在特征融合的过程中没有考虑不同层特征的贡献度，使得网络对特征的利用和特征信息的有效表达不足，从而影响检测的精度。且当前方法在损失函数设计方面，往往只使用表征目标类别的分类损失和对目标进行定位的回归损失来约束网络参数的优化，最终网络所提取的特征的类别鉴别能力有限，这影响了车辆检测的精度，因此，从无人机航拍图像进行车辆检测的检测精度有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于无人机航拍图像的车辆检测网络建立方法及其应用，其目的在于，建立更为准确的车辆检测网络，提升车辆检测的精度。

为实现上述目的，按照本发明的一个方面，提供了一种基于无人机航拍图像的车辆检测网络建立方法，包括：

建立待训练的车辆检测网络，并利用航拍数据集训练对其进行训练；航拍数据集中的训练样本为已标注车辆位置及类别的航拍图像；车辆检测网络为深度学习神经网络模型，其以图像为输入，用于预测输入的图像中车辆的位置和类别，并输出预测置信度；

训练过程中，计算损失的损失函数为：L_total＝L_loc+L_cls+L_disc；L_loc为回归损失，用于表示车辆位置预测值与真实值之间的差异；L_cls为分类损失，用于表示车辆类别预测值与真实值之间的差异；L_disc为类间可鉴别损失，用于表示训练样本在特征空间中的分布情况，且同类训练样本的特征分布越聚集、不同类训练样本的特征分布越分散，类间可鉴别损失L_disc越小；

训练结束后，完成车辆检测网络的建立。

进一步地，L_disc＝L_var+L_dist；

其中，L_var为方差项，用于表示同类训练样本的特征聚集程度，且同类训练样本的特征聚集程度越高，方差项L_var的取值越小；L_dist为距离项，用于表示不同类训练样本的特征分散程度，且不同类训练样本的特征分散程度越高，距离项L_dist的取值越小。

进一步地，

其中，C表示航拍数据集中车辆类别的总数，N_c表示航拍数据集中第c个类别对应的训练样本总数，μ_c表示第c个类别对应的航拍图像的特征向量均值，x_i表示第i张航拍图像的特征向量；δ_v为预设的阈值，δ_v>0；[x]₊＝max(0,x)。

进一步地，

其中，C表示航拍数据集中车辆类别的总数；c_A和c_B表示两个不同的车辆类别，

和

分别表示这两个类别对应的航拍图像的特征向量均值；δ_d为预设的阈值，δ_d>0；[x]₊＝max(0,x)。

进一步地，

L_cls＝-α_tW_t(1-P_t)^γlog(P_t)

其中，

a为超参数；

p表示相应类别的预测置信度；γ为预设的权重系数；

w_class表示对应类别错分类训练样本的权重，

p_class表示对应类别的训练样本在所有训练样本中出现的概率；β为超参数。

进一步地，车辆检测网络包括：特征提取骨干网络、特征融合网络、分类子网络和回归子网络；

特征提取骨干网络，用于提取输入图像的三个不同尺度的特征，按照尺度从大到小，依次记为C3、C4和C5；

特征融合网络，包括语义特征提取模块和特征金字塔加权融合模块，语义特征提取模块用于对特征C5做进一步的特征提取，得到特征C6，并对特征C6做进一步地特征提取，得到特征C7；特征金字塔加权融合模块为5层特征金字塔网络，其输出的5层特征自底向上依次记为P3～P7，其中，特征P7为特征C7经卷积运算后的结果，特征PM为其上层特征P(M+1)与特征CM加权融合后经卷积运算的结果；

分类子网络，用于根据特征融合网络输出的特征P3～P7预测输入图像中车辆的类别，并输出预测置信度；

回归子网络，用于根据特征融合网络输出的特征P3～P7预测输入图像中车辆的位置；

其中，M为正整数，且3≤M≤6。

进一步地，在训练过程中，特征P(M+1)与特征CM加权融合为特征PM的权重系数动态调整。

按照本发明的另一个方面，提供了一种基于无人机航拍图像的车辆检测方法，包括：

将待检测的航拍图像输入至由本发明提供的基于无人机航拍图像的车辆检测网络建立方法所建立的车辆检测网络，以由车辆检测网络预测出车辆的位置、类别即预测置信度；

将车辆检测网络输出的预测结果绘制于航拍图像中，完成车辆检测。

进一步地，本发明提供的基于无人机航拍图像的车辆检测方法，在将车辆检测网络输出的预测结果绘制于航拍图像中之前，还包括：

去除预测结果中的冗余预测框；

其中，预测框为由位置信息所确定的检测框。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于无人机航拍图像的车辆检测网络建立方法，和/或本发明提供的基于无人机航拍图像的车辆检测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在训练基于无人机航拍图像的车辆检测网络时，所使用的损失函数除了包含回归损失项和类别损失项，还引入了类间可鉴别损失项，同类训练样本的特征分布越聚集、不同类训练样本的特征分布越分散，则该类间可鉴别损失越小，因此，通过类间可鉴别损失项的引入，可以通过网络训练改变训练样本在特征空间中的分布情况，给网络参数的优化提供更多的约束，使得同类别训练样本的特征分布更聚集，而不同类别样本的特征分布更远离，最终，网络所提取到的不同类别间的特征更具区分性，针对无人机航拍图像中背景复杂，同时场景中的车辆类别不一，形态、角度各异等情况，能够有效减少检测过程中的虚检、漏检及错分类的情况，有效提高车辆检测的精度。

(2)本发明在训练基于无人机航拍图像的车辆检测网络时，所使用的损失函数同时包含回归损失项、类别损失项和类间可鉴别损失项，并且其中的类别损失在focal loss分类损失的基础上，对预测错误的类别进行惩罚，同时通过引入参数W_t，能够根据不同类别样本数量的不同赋予不同的权重，增大少类别错分样本的权重，使网络训练能够更多地关注于少类别错分类，进一步提高车辆检测的精度。

(3)本发明所建立的车辆检测网络，其中的特征融合网络在特征提取骨干网络所提取的特征的基础上，进一步进行特征提取，得到了更深层次的特征，在减少网络参数的同时，加深了网络的深度，提取到了更高级的语义特征，并且通过构建五层特征金字塔网络，从特征金字塔的顶层开始自顶向下地融合深浅层卷积特征，能够有效地增强浅层特征的高级特征信息，提升目标检测，尤其是小目标检测的精度，并且能够对多种尺度的车辆进行检测；同时改变原有的融合方式，采用特征加权融合的方式自适应地融合多层特征，使网络能够根据最终回归和分类任务的需要对特征进行有目的地提取。基于该特殊结构的车辆检测网络，本发明能够进一步提高对无人机航拍图像进行车辆检测的检测精度。

(4)本发明所建立的车辆检测网络，其中进行特征加权融合的权重系数为可学习的参数，使得网络能够在训练中自主学习每个输入特征的重要性，并对权重系数进行动态调整，进一步提高车辆检测的检测精度。

附图说明

图1为本发明实施例提供的车辆检测网络结构示意图；

图2为本发明实施例提供的特征金字塔加权融合模块示意图；

图3为本发明实施例提供的基于无人机航拍图像的车辆检测方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了提高基于无人机航拍图像的车辆检测的检测精度，本发明提供了一种基于无人机航拍图像的车辆检测网络建立方法及其应用，其整体思路在于：通过在损失函数中引入类间可鉴别损失，利用网络训练改变训练样本在特征空间中的分布情况，对网络参数优化提供更多的约束，使得网络提取到的不同类别间的特征更具区分性，从而网络的预测结果精度更高，进而提高了车辆检测的检测精度；在此基础上，进一步对网络结构进行改进，实现更高级语义信息的特征加权融合，并且权重系数可在训练过程中动态调整，进一步提高对车辆检测的检测精度。

以下为实施例。

实施例1：

一种基于无人机航拍图像的车辆检测网络建立方法，包括：

建立待训练的车辆检测网络，并利用航拍数据集训练对其进行训练，训练结束后，完成车辆检测网络的建立。

航拍数据集中的训练样本为已标注车辆位置及类别的航拍图像；可选地，本实施例中，所使用的航拍数据集具体是公开的无人机航拍数据集UAVDT，UAVDT数据集包括50段不同场景的视频序列，总计4万多帧图像，其中车辆类别分为car、truck和bus三类；在本发明其他的一些实施例中，也可使用其他数据集，或者自行构建相应的数据集。

本实施例中，车辆检测网络为深度学习神经网络模型，其输入为三通道无人机航拍图像，用于预测输入的图像中车辆的位置和类别，并输出预测置信度；车辆检测网络的结构具体如图1所示，整体包括三个部分，分别为特征提取骨干网络，基于特征金字塔加权融合模块的特征融合网络，以及分类、回归子网络。其中：

特征提取骨干网络，用于提取输入图像的三个不同尺度的特征，按照尺度从大到小，依次记为C3、C4和C5；作为一种可选的实施方式，本实施例中，采用ResNet50作为特征提取骨干网络，利用五个不同组合的卷积块(自底向上依次为Conv1～Conv5)提取特征，由Conv3得到基于原图三次下采样后的C3层特征图，由Conv4得到基于原图四次下采样后的C4层特征图，由Conv5得到基于原图五次下采样后的C5层特征图；在本发明其他的一些实施例中，也可使用其他的特征提取网络作为车辆检测网络中的特征提取骨干网络；

特征融合网络，包括语义特征提取模块和特征金字塔加权融合模块；语义特征提取模块用于对特征C5做进一步的特征提取，得到特征C6，并对特征C6做进一步地特征提取，得到特征C7，具体地，本实施例在C5层特征图的基础上进行一次3*3卷积，得到C6层特征图，在C6层特征图的基础上进行一次3*3卷积，得到C7层特征图；特征金字塔加权融合模块为5层特征金字塔网络，其输出的5层特征自底向上依次记为P3～P7，其中，特征P7为特征C7经卷积运算后的结果，特征PM为其上层特征P(M+1)与特征CM加权融合后经卷积运算的结果；

其中，M为正整数，且3≤M≤6；本实施例所建立的上述车辆检测网络，由3*3的卷积得到C6、C7层的主要作用是在减少网络参数量的同时，加深网络的深度，以提取到更高级的语义信息；在特征金字塔加权融合模块中，从P7层有效特征层开始，构建五层特征金字塔网络，从特征金字塔的顶层开始自顶向下地融合深浅层卷积特征，同时改变原有的融合方式，采用特征加权融合的方式自适应地融合多层特征；通过反向传播自主学习策略调整不同层特征的权重系数，使网络能够根据最终回归和分类任务的需要对特征进行有目的地提取；在预测输出阶段，将五个有效特征层分别输入分类子网络和回归子网络中，综合每个有效特征层的结果得到最终预测结果；P3、P4、P5、P6、P7分别是对原图3次、4次、5次、6次、7次下采样后得到，其对应的感受野分别为8*8、16*16、32*32、64*64、128*128，能够对多种尺度的车辆进行检测；

此外，本实施例认为，不同层的卷积特征对最后回归和分类任务的贡献度是不一样的，所以在对深浅层卷积特征进行融合的过程中，采用加权融合的方式，引入可学习的权重系数使网络自主学习每个输入特征的重要性；以下对五层特征金字塔中的特征融合过程进行进一步说明，如图2所示，以P4层和C3层的融合过程为例，经过上采样后的P4层的权重系数为w₃₁，经过3*3卷积将特征通道数压缩为256后的C3层的权重系数为w₃₂，然后将P4层和C3层分别与对应的权重系数相乘之后经过3*3卷积块，得到最终的有效特征层P3；图2中，w_M1和w_M2分别表示五层特征金字塔中第(M+1)层特征P(M+1)与第M层特征CM融合时，特征P(M+1)和特征CM的权重系数，例如，在图2所示的融合过程中，w₃₁表示特征P4的权重系数，w₃₂表示特征C3的权重系数。基于上述融合过程，五层特征金字塔中，每层有效特征层的输出可表示为：

P₇＝Conv(C₇)

上式中，w_ij(i＝3,4,…,7；j＝1,2)表示第i层第j个输入特征的权重，主要衡量每个输入特征的重要程度；ε是一个小数值，用来避免分母为0，可选地，本实施例中，ε的取值为0.0001；

本实施例中，在训练过程中，特征加权融合的权重系数w_ij为为可学习的参数，使得网络能够在训练中自主学习每个输入特征的重要性，并对权重系数进行动态调整，进一步提高车辆检测的检测精度。

为了使网络提取到的不同类别间的特征更具区分性，同时使得本检测网络能够更好地应用于无人机航拍下的复杂场景中，本发明在回归损失和改进分类损失的基础上增加类间可鉴别损失，利用回归损失、分类损失和类间可鉴别损失三类损失来评估模型预测值与真实值之间的差异；具体地，本实施例中，训练过程中，计算损失的损失函数为：L_total＝L_loc+L_cls+L_disc；L_loc为回归损失，用于表示车辆位置预测值与真实值之间的差异；L_cls为分类损失，用于表示车辆类别预测值与真实值之间的差异；L_disc为类间可鉴别损失，用于表示训练样本在特征空间中的分布情况，且同类训练样本的特征分布越聚集、不同类训练样本的特征分布越分散，类间可鉴别损失L_disc越小；下面分别对各个损失进行详细介绍：

a.第一项为回归损失，表示车辆位置的预测值f(x_i)(包括预测框中心点的横、纵坐标及预测框的宽度、高度)和真值y_i之间的差异；数学表达式为：

其中，

i∈{x,y,w,h}表示分别计算预测框与真实框中心点横、纵坐标及矩形框宽度和高度之间的误差；

b.第二项为分类损失，对车辆类别预测错误的情况进行评估；在使用大量样本进行训练时，原始focal loss分类损失对于少类别错分类样本的关注度不高，容易忽略少类别错分类样本；因此，本实施例在focal loss分类损失的基础上，对预测错误的类别进行惩罚，同时根据不同类别样本数量的不同赋予不同的权重，增大少类别错分样本的权重，使网络训练能够更多地关注于少类别错分类样本；其数学表达式为：

L_cls＝-α_tW_t(1-P_t)^γlog(P_t)

其中，

a为超参数，通过α_t来调整训练过程中正负样本的权重；

p表示网络给出的预测为该类别的置信度；通过γ调整不同检测难易样本的权重，达到减小易分类样本的损失的目的；

w_class表示各类别错分类样本的权重；

p_class表示对应类别的目标在总体训练样本中出现的概率；

num_class表示对应类别的样本数量，total_num表示总的样本数，β为超参；根据w_class的计算式可以看出，在类别预测错误的情况下，同样别的训练样本数量越少，该训练样本被赋予的权重系数W_t越大，由此达到了增大少类别错分样本的权重的目的；

c.第三项为类间可鉴别损失，针对无人机航拍图像中背景复杂，同时场景中的车辆类别不一，形态、角度各异等情况，更具区分性的特征能够有效减少检测过程中的虚检、漏检及错分类的情况，因此本实施例在上述回归损失和分类损失的基础上增加类间可鉴别损失，利用网络训练改变训练样本在特征空间中的分布情况，约束网络参数的优化，使得同类样本的特征分布更聚集，不同类样本的特征分布更远离；类间可鉴别损失的数学表达式为：

L_disc＝L_var+L_dist

该损失主要由两部分组成：方差项和距离项；L_var为方差项，用于表示同类训练样本的特征聚集程度，且同类训练样本的特征聚集程度越高，方差项L_var的取值越小；L_dist为距离项，用于表示不同类训练样本的特征分散程度，且不同类训练样本的特征分散程度越高，距离项L_dist的取值越小；

方差项L_var计算表达式具体如下：

其中，C表示航拍数据集中车辆类别的总数，N_c表示航拍数据集中第c个类别对应的训练样本总数，μ_c表示第c个类别对应的航拍图像的特征向量均值，x_i表示第i张航拍图像的特征向量；δ_v为预设的阈值，δ_v>0；[x]₊＝max(0,x)，即当‖μ_c-x_i‖小于δ_v时，损失为0；当‖μ_c-x_i‖大于δ_v时，开始计算损失，以此达到聚拢同类别特征的目的；可选地，本实施例中，δ_v的取值为0.6；

距离项L_dist的计算表达式具体如下：

C表示航拍数据集中车辆类别的总数；c_A和c_B表示两个不同的车辆类别，

和

分别表示这两个类别对应的航拍图像的特征向量均值；δ_d为预设的阈值，δ_d>0；[x]₊＝max(0,x)，即当不同类别的类中心之间的距离

大于δ_d时，损失值为0；当

小于δ_d时，开始计算损失，以实现不同类样本彼此远离的目的；最终，不同类别的车辆间的特征距离将被限制在δ_d之外；可选地，本实施例中，δ_d的取值为3.6。

实施例2：

一种基于无人机航拍图像的车辆检测方法，如图3所示，包括：

将待检测的航拍图像输入至由上述实施例1提供的基于无人机航拍图像的车辆检测网络建立方法所建立的车辆检测网络，以由车辆检测网络预测出车辆的位置、类别即预测置信度；输入图像可以是由航拍摄像头所拍摄的视频中的一帧图像；为了避免异常值和极端值对结果的影响，本实施例将无人机航拍图像输入车辆检测网络之前，还可对图像进行预处理；可选地，本实施例所进行的预处理具体包括归一化和标准化，归一化的具体方式为将输入图像数据除以255，标准化的具体方式为将归一化之后的输入图像减去均值除以标准方差；

将车辆检测网络输出的预测结果绘制于航拍图像中，完成车辆检测；为了在输入的航拍图像中清晰显示车辆检测结果，本实施例在将车辆检测网络输出的预测结果绘制于航拍图像中之前，还会对车辆检测结果进行后处理，后处理操作包括去除预测结果中的冗余预测框；可选地，本实施例中，通过非极大值抑制(Non-Maximum Suppression，NMS)方法去除冗余预测框；

车辆检测网络输出的车辆位置信息可表示为(x₁,y₁,x₂,y₂)，(x₁,y₁)表示车辆预测矩形框的左上角坐标，(x₂,y₂)表示车辆预测矩形框的右下角坐标；车辆类别信息则具体是输入的航拍图像中是否含有车辆，并且在含有车辆的情况下，车辆类别信息则可以是小汽车(car)、公交车(bus)等；预测置信度，用于衡量检测结果的可信度；预测框为由位置信息所确定的检测框。

实施例3：

一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于无人机航拍图像的车辆检测网络建立方法，和/或上述实施例2提供的基于无人机航拍图像的车辆检测方法。

为了更好地说明本发明提出的基于无人机航拍图像的车辆检测网络的作用，本发明在UAVDT数据集上对模型分别进行了定性和定量测试。由于数据集中类别分布严重不均衡，car类车辆的数目占据整个数据集的92％，所以本发明按照论文“The Unmanned AerialVehicle Benchmark:Object Detection and Tracking[J]”(D Du,Qi Y,Yu H,etal..Springer,Cham,2018.)中的惯例将这三个类别合并为一个单一的car类别进行测试。

定性分析：选取六幅图像来源于UAVDT数据集中的不同视频序列，其中无人机航拍的高度、角度及天气情况都不尽相同，所选取的六幅图所对应的场景分别为：(a)低空、侧视、白天场景，(b)低空、俯视、夜晚场景，(c)中空、侧视、白天场景，(d)中空、前视、夜晚场景，(e)高空、前视、白天场景，(f)高空、俯视、夜晚场景。由于场景过于复杂，在此未进行图示。从检测结果上可以看出，本发明提出的车辆检测网络基本能够将不同航拍场景下的车辆都正确地检测出来，同时保持较高的检测置信度，而不是只针对特定拍摄高度或特定拍摄角度或特定拍摄天气的无人机航拍图像有效，验证了算法的泛化能力和鲁棒性。

定量分析：如表1所示，为了更直观地说明本发明提出的车辆检测网络的效果，本次测试使用UAVDT数据集中划分好的20个测试序列进行测试，使用平均精度均值(mAP)对测试结果进行评估；通过实验结果可以看出，与UAV-Net、LSN、GANet、NDFT、SpotNet、D2Det这些当前先进的无人机航拍图像车辆检测方法，相比，本发明提出的车辆检测方法取得了最好的效果，能够在保证精确度的同时，最大程度地检测出更多的车辆目标。

表1不同无人机航拍图像车辆检测方法对比分析

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于无人机航拍图像的车辆检测网络建立方法，其特征在于，包括：

建立待训练的车辆检测网络，并利用航拍数据集训练对其进行训练；所述航拍数据集中的训练样本为已标注车辆位置及类别的航拍图像；所述车辆检测网络为深度学习神经网络，其以图像为输入，用于预测输入的图像中车辆的位置和类别，并输出预测置信度；

训练过程中，计算损失的损失函数为：L_total＝L_loc+L_cls+L_disc；L_loc为回归损失，用于表示车辆位置预测值与真实值之间的差异；L_cls为分类损失，用于表示车辆类别预测值与真实值之间的差异；L_disc为类间可鉴别损失，用于表示训练样本在特征空间中的分布情况，且同类训练样本的特征分布越聚集、不同类训练样本的特征分布越分散，所述类间可鉴别损失L_disc越小；

训练结束后，完成所述车辆检测网络的建立。

2.如权利要求1所述的基于无人机航拍图像的车辆检测网络建立方法，其特征在于，L_disc＝L_var+L_dist；

其中，L_var为方差项，用于表示同类训练样本的特征聚集程度，且同类训练样本的特征聚集程度越高，所述方差项L_var的取值越小；L_dist为距离项，用于表示不同类训练样本的特征分散程度，且不同类训练样本的特征分散程度越高，所述距离项L_dist的取值越小。

3.如权利要求2所述的基于无人机航拍图像的车辆检测网络建立方法，其特征在于，

其中，C表示所述航拍数据集中车辆类别的总数，N_c表示所述航拍数据集中第c个类别对应的训练样本总数，μ_c表示第c个类别对应的航拍图像的特征向量均值，x_i表示第i张航拍图像的特征向量；δ_v为预设的阈值，δ_v>0；[x]₊＝max(0,x)。

4.如权利要求2所述的基于无人机航拍图像的车辆检测网络建立方法，其特征在于，

其中，C表示所述航拍数据集中车辆类别的总数；c_A和c_B表示两个不同的车辆类别，

和

5.如权利要求1所述的基于无人机航拍图像的车辆检测网络建立方法，其特征在于，

L_cls＝-α_tW_t(1-P_t)^γlog(P_t)

其中，

a为超参数；

p表示相应类别的预测置信度；γ为预设的权重系数；

w_class表示对应类别错分类训练样本的权重，

6.如权利要求1～5任一项所述的基于无人机航拍图像的车辆检测网络建立方法，其特征在于，所述车辆检测网络包括：特征提取骨干网络、特征融合网络、分类子网络和回归子网络；

所述特征提取骨干网络，用于提取输入图像的三个不同尺度的特征，按照尺度从大到小，依次记为C3、C4和C5；

所述特征融合网络，包括语义特征提取模块和特征金字塔加权融合模块，所述语义特征提取模块用于对特征C5做进一步的特征提取，得到特征C6，并对特征C6做进一步地特征提取，得到特征C7；所述特征金字塔加权融合模块为5层特征金字塔网络，其输出的5层特征自底向上依次记为P3～P7，其中，特征P7为特征C7经卷积运算后的结果，特征PM为其上层特征P(M+1)与特征CM加权融合后经卷积运算的结果；

所述分类子网络，用于根据所述特征融合网络输出的特征P3～P7预测输入图像中车辆的类别，并输出预测置信度；

所述回归子网络，用于根据所述特征融合网络输出的特征P3～P7预测输入图像中车辆的位置；

其中，M为正整数，且3≤M≤6。

7.如权利要求6所述的基于无人机航拍图像的车辆检测网络建立方法，其特征在于，在训练过程中，特征P(M+1)与特征CM加权融合为特征PM的权重系数动态调整。

8.一种基于无人机航拍图像的车辆检测方法，其特征在于，包括：

将待检测的航拍图像输入至由权利要求1～7任一项所述的基于无人机航拍图像的车辆检测网络建立方法所建立的车辆检测网络，以由所述车辆检测网络预测出车辆的位置、类别即预测置信度；

将所述车辆检测网络输出的预测结果绘制于所述航拍图像中，完成车辆检测。

9.如权利要求8所述的基于无人机航拍图像的车辆检测方法，其特征在于，在将所述车辆检测网络输出的预测结果绘制于所述航拍图像中之前，还包括：

去除所述预测结果中的冗余预测框；

其中，所述预测框为由位置信息所确定的检测框。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1～7任一项所述的基于无人机航拍图像的车辆检测网络建立方法，和/或权利要求8～9任一项所述的基于无人机航拍图像的车辆检测方法。