CN116363072A

CN116363072A - 一种轻型航拍图像检测方法及***

Info

Publication number: CN116363072A
Application number: CN202310200598.8A
Authority: CN
Inventors: 邓立霞; 毕凌云; 李洪泉; 陈好男; 段学虎; 娄海同; 张洪豫; 毕京学; 刘海英
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-30

Abstract

本发明提出了一种轻型航拍图像检测方法及***，该方法包括：实时获取无人机拍摄视频帧；利用训练后的航拍图像检测模型判断所述视频帧中是否存在行人或车辆目标；所述航拍图像检测模型的构建过程包括：搭建用于特征提取的骨干特征提取网络；搭建深层特征图跨路径融合网络；将搭建的骨干特征提取网络与深层特征图跨路径融合网络进行拼接并搭建检测头，得到预设的航拍图像检测模型；所述航拍图像检测模型的训练过程包括：利用训练集训练所述预设的航拍图像检测模型，得到最终收敛的航拍图像检测模型。本发明通过构建轻型航拍图像检测模型，实现了航拍图像检测中更高的检测精度和更低的计算成本，减少硬件设备的损耗，实现了轻量化的航拍图像检测。

Description

一种轻型航拍图像检测方法及***

技术领域

本发明属于图像检测技术领域，尤其涉及一种轻型航拍图像检测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着无人机在现代生活中的不断应用，航拍技术在交通建设、地质勘探、生态研究、军事行动等各个领域都有着广泛的应用。地面车辆目标检测作为智慧交通***的重要组成部分，可以为***的外界环境感知提供基础，通过航拍技术对地面车辆目标进行定位与跟踪，能够更加清晰地传递和反映地面交通信息与交通状况，为构建成熟的智慧交通***提供帮助。

无人机航拍图像目标往往较小且密集，现有检测算法的检测精度较低，并且检测算法的网络模型太大也会对无人机的算法部署造成不利影响，这都对无人机航拍图像目标检测任务带来了巨大考验。

发明内容

为克服上述现有技术的不足，本发明提供了一种轻型航拍图像检测方法及***，解决现有航拍图像检测算法检测精度低、计算成本高的问题，实现了检测精度上的显著提高，以及轻量化的航拍图像目标检测。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种轻型航拍图像检测方法，包括：

实时获取无人机拍摄视频帧；

利用训练后的航拍图像检测模型判断所述视频帧中是否存在行人或车辆目标；

所述航拍图像检测模型的构建过程包括：

搭建用于特征提取的骨干特征提取网络；

搭建深层特征图跨路径融合网络；

将搭建的骨干特征提取网络与深层特征图跨路径融合网络进行拼接并搭建检测头，得到预设的航拍图像检测模型；

所述航拍图像检测模型的训练过程包括：

利用训练集训练所述预设的航拍图像检测模型，得到最终收敛的航拍图像检测模型。

本发明第二方面提供了一种轻型航拍图像检测***，包括：

视频帧获取模块，被配置为：实时获取无人机拍摄视频帧；

航拍图像检测模型构建模块，被配置为：搭建用于特征提取的骨干特征提取网络；

搭建深层特征图跨路径融合网络；

航拍图像检测模型训练模块，被配置为：利用训练集训练所述预设的航拍图像检测模型，得到最终收敛的航拍图像检测模型；

目标判断模块，被配置为：利用训练后的航拍图像检测模型判断所述视频帧中是否存在行人或车辆目标。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种轻型航拍图像检测方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种轻型航拍图像检测方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明通过构建轻型航拍图像目标检测模型，即以包含VB网络和C3SFN网络的骨干特征提取网络，以DFM-CPFN(Deep Feature Map Cross Path Fusion Network)为多尺度特征融合网络，实现了航拍图像目标检测更高的检测精度和更低的计算量和参数量，解决现有航拍图像检测算法复杂、精度低、成本高的问题，实现了轻量级的高精度航拍图像检测，具有广泛的适用性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中的轻型航拍图像检测方法的流程图；

图2(a)和图2(b)分别为本发明实施例一中的骨干特征提取网络的VB网络和C3SFN网络结构图；

图3为本发明实施例一中的深层特征图跨路径融合网络DFM-CPFN(Deep FeatureMap Cross Path Fusion Network)的网络结构图；

图4为本发明实施例一中航拍图像检测算法(LAI-YOLOv5s)与YOLO v5m算法、YOLOv5l算法、YOLO v3算法在[email protected]指标上的对比结果图；

图5为本发明实施例一中航拍图像检测算法(LAI-YOLOv5s)与YOLO v5m算法、YOLOv5l算法、YOLO v3算法在[email protected]:0.95指标上的对比结果图。

具体实施方式

实施例一

如图1所示，本实施例公开了一种轻型航拍图像检测方法，包括：

获取若干存在行人或车辆的无人机航拍图像，对航拍图像进行预处理；

对航拍图像中的行人或车辆等目标进行标签标注，将若干标注的图片作为训练样本集，对预设的航拍图像检测模型进行训练；

实时获取无人机拍摄视频帧，利用训练完成的航拍图像检测模型进行判断，视频帧中是否存在行人或车辆等目标。

在本实施例中，首先获取6471张存在行人或车辆的无人机航拍图像，该航拍图像均为采用JPG格式存储的彩色图像，对该彩色无人机航拍图像进行预处理，通过传统的图像处理技术和Mosaic数据增强技术提高无人机航拍图像的质量，提高图像读取速度，具体包括：

首先，采用现有的图像处理技术处理无人机航拍图像，其中，图像处理技术包括但不限于随机翻转、拼接、缩放等，用于提高数据集质量，提高模型泛化能力；其次，采用Mosaic数据增强技术处理无人机航拍图像，提高航拍图像的读取速度；最后，将无人机航拍图像尺寸归一化为同一大小，在本实施例中，将航拍图像尺寸大小归一化为640×640，便于后续的统一处理。

之后，利用labeling标注工具对预处理完成后的无人机航拍图像中的行人或车辆等目标进行标签标注，即在图像中的行人或车辆等目标左上方标注'pedestrian','people','bicycle','car','van','truck','tricycle','awning-tricycle','bus','motor'(分别对应：“行人”，“人”，“自行车”，“汽车”，“小型货车”，“卡车”，“三轮车”，“遮蓬三轮车”，“公共汽车”，“摩托车”)等标签信息，同时用方形框框出各个对应目标，针对所有的行人或车辆等目标，采用五个参数确定，分别为：类别参数、目标中心坐标参数即x,y、目标宽高参数即w,h，其中目标中心坐标和目标的宽高分别是相对于整体图片而确定的。将该无人机航拍图像数据的标签文件转为txt格式存储。将若干标注标签的无人机航拍图像作为训练样本集，以此对预设的无人机航拍图像检测模型进行训练。

作为另一种实施方式，选取80％的航拍图像构成训练集、10％的航拍图像构成验证集、10％的航拍图像构成测试集，利用labeling标注工具对训练集的无人机航拍图像中的行人或车辆等目标进行标签标注，利用该训练集对预设的无人机航拍图像检测模型进行训练。

上述预设的无人机航拍图像检测模型的构建过程具体包括：

搭建用于特征提取的骨干网络；

搭建深层特征图跨路径融合网络(DFM-CPFN)及检测头；

将搭建的骨干网络与深层特征图跨路径融合网络进行拼接，利用训练样本集训练拼接网络，得到最终收敛的网络模型。

现有的航拍图像检测算法通常采用YOLO v5网络结构，而YOLO v5网络结构包括骨干特征提取网络和多尺度特征融合网络。

其中，在YOLO v5网络结构中，骨干特征提取网络是一个庞大的网络结构。它采用结合CSP思想和残差网络思想的C3模块，并在该模块中采用了“3，6，9，3”组合的残差块堆叠方式，每个C3模块之间通过卷积核大小为3，步长为2的下采样连接，逐渐缩小图像尺寸，增大感受野。

本实施例中，对C3模块进行优化改进。首先融合VoVNet和残差结构Bottleneck，设计一个VB网络，能够使得网络更窄，特征和梯度的传递也更加有效，可以改善神经网络的退化问题以及网络加深带来的梯度消失问题；然后结合ShuffleNetV2的思想设计了一个C3SFN网络，它比原C3网络的计算成本大大减少，可以使整个网络模型更加轻量。

将标注行人或车辆目标的无人机航拍图像输入骨干特征提取网络中，在本实施例中，骨干特征提取网络采用3个VB网络和1个C3SFN网络，在这两种网络中间由一个卷积核大小为1、步长为2的CBS卷积模块将它们连接。

如图2(a)所示，VB网络由4个CBS卷积模块开始，每个卷积模块的输出都在最后一个模块之后进行拼接，并保留了Bottleneck模块作为一条单独的路径进行拼接，在所有的拼接操作完成之后，再用1个卷积模块来调整输出的通道数；

如图2(b)所示，C3SFN网络由一个SFN模块代替原C3网络中的Bottleneck模块而来，SFN模块是一个类Bottleneck模块，它有两个分支，其中一条分支包含两个卷积核大小为1的普通卷积和卷积核大小为3的深度可分离卷积，另一条分支也即输入，两条分支由一个拼接操作融合在一起，最后由一个Channel Shuffle操作来启用两个分支之间的信息通信。通过上述骨干特征提取网络，改变特征图的通道数，得到不同通道的特征图。

此外，本实施例放弃了YOLO v5网络结构原有的“3，6，9，3”的残差块堆叠方式，而是采用了“3，3，3，6”的堆叠方式；“3，3，3”对应的是三个VB模块，即将三个VB中的Bottleneck模块分别堆叠3个；“6”对应的是一个C3SFN模块，即将一个C3SFN中的SFN模块堆叠6个。通过改进的堆叠方式，在保证最终识别精度损耗很少的前提下，可以有效减少模型的计算成本。

在YOLO v5网络结构中，多尺度特征提取网络Neck借鉴了PANet的融合思想，其相比于FPN增加了一条自下而上的特征融合路径；而且，YOLO v5采用的反向优化方法(即反向传播损失函数)主要包含中心坐标预测、置信度预测和分类预测。其中，中心坐标预测采用Sigmoid函数将输出值限定到0-1之间，利于输出参数的优化，置信度预测和分类预测采用二值交叉熵进行反向传播预测。

在本实施例中，为了进一步提高特征提取的效果，减轻运算量，如图3所示，基于PANet的多尺度特征融合网络，设计了一个深层特征图跨路径融合网络DFM-CPFN(DeepFeature Map Cross Path Fusion Network)。首先，去掉中等尺寸检测头后面的路径和拼接操作，改为经两个上采样操作和两个C3模块，引出一个更大尺寸的特征图，用于检测更小的目标；其次，在两次上采样操作的后面分别增加一个同主干网络跨路径融合的拼接。可以增强深层信息和浅层信息的融合能力，丰富底层特征的语义信息，改善了检测效果。同时，为了使网络模型更加轻量化，将C3SFN网络也应用于DFM-CPFN中。

之后，本实施例所述方案仍旧采用YOLO v5的反向优化方法进行中心坐标预测、置信度预测和分类预测。

将标注后的图像输入骨干特征提取网络中，输出4张不同通道的特征图F1、F2、F3和F4，将这4张特征图分别输入到DFM-CPFN中，得到不同尺度的特征图D1、D2和D3，通过非极大值抑制(NMS)和I oU交并比筛选出最合适的预测框。DFM-CPFN是一种特征融合思想，而非一种固定模块的网络结构，四张图在本实例中的具体输入或融合方式可见附图3；

在本实施例中，特征图D1、D2和D3每个网格内含有3个预测框，每个预测框的通道数为15，第1个通道是置信度预测的结果，该结果是一个概率值，第2-5个通道是中心坐标预测的结果，输出相对于整个特征图的预测框，第6-15个通道是分类预测的结果，该预测结果也是一个概率值。

在搭建完成骨干特征提取网络和DFM-CPFN后，将搭建的骨干特征提取网络与搭建的DFM-CPFN进行拼接，即多DFM-CPFN采用骨干网络第1、2、3、4的输出特征图作为输入，该输出特征图各不相同，DFM-CPFN的卷积运算输出三张检测特征图，该特征图包括：40x40尺度(D2)的用于检测大目标的特征图，80x80(D1)尺度的用于检测中目标的特征图，160x160(D3)尺度的用于检测小目标的特征图。

基于训练样本集对上述预设的航拍图像检测模型进行训练，在保证未出现过拟合和欠拟合的前提下，充分训练航拍图像检测模型，直至损失函数不再收敛，保留最优权重文件，完成训练。

实际上，本实施例上述航拍图像检测模型包括输入层、中间层和输出层三部分，将训练样本集中的图像输入检测模型的输入层，中间层包括骨干网络和DFM-CPFN，其中，骨干网络中堆叠了VB和C3SFN网络结构，DFM-CPFN中包含由上到下和由下到上的跨路径特征融合方式，通过中间层进行特征提取，最终在输出层输出三个不同尺度的特征图，用以判断输入的训练图像是否包含行人或车辆目标的概率。

最终，实时获取无人机航拍视频帧，利用训练完成的航拍图像检测模型进行判断，视频帧中是否存在行人或车辆等目标，同时输出该目标的概率。

为了充分证明本实施例上述检测方法的有效性，本实施例在相同的实验环境下，训练YOLO v3算法和YOLO v5算法，并得到相应的[email protected](IoU阈值大于0.5的值，数值越高，即阈值越大，精度越低)、[email protected]：0.95(不同IoU阈值，即从0.5到0.95、步长为0.05的多个阈值上的平均mAP)、计算量和参数量指标(参数量和计算量越低，运算越简单，运算成本越低)，用以证明本实施例所提出改进方案的有效性。

为了证明本实施例所述航拍图像检测算法(LAI-YOLOv5s)在综合性能上的优越性，将该航拍图像检测算法与YOLOv5m、YOLOv51和YOLOv3在检测效果和计算成本上做了对比实验，本实施例航拍图像检测算法(LAI-YOLOv5s)与YOLO v5m算法、YOLO v5l算法、YOLOv3算法在[email protected]指标上的对比结果如图4所示，在[email protected]:0.95指标上的对比结果如图5所示；

本实施例所述航拍图像测算法与YOLOv5m、YOLOv51以及YOLOv3的检测效果和计算成本的比较结果如表1所示，其中，本实施例所述航拍图像检测算法的参数量和计算量仅为YOLOv5m的30.1％和60.4％，[email protected]指标提高4.5％，[email protected]：0.95指标提高2.2％；相比于YOLOv5l，本实施例所述航拍图像检测算法的参数量和计算量仅为YOLOv5l的13.6％和26.9％，[email protected]指标提高2.7％，[email protected]：0.95指标提高0.8％；相比于YOLOv3，本实施例所述航拍图像检测算法的参数量和计算量仅为YOLOv3的10.2％和18.7％，[email protected]指标提高1.4％，[email protected]：0.95指标提高0.5％。本实验证明，本实施例所提出的航拍图像检测算法具有更好的技术效果，不仅在计算成本上十分轻量，而且还有更高的检测精度。

表1

综上，本实施例提供的一种轻量级航拍图像检测方法，该航拍图像检测方法解决现有检测算法检测精度低、计算成本高的问题，实现了轻量化的高精度航拍图像检测。

实施例二

本实施例公开了一种轻型航拍图像检测***，包括：

视频帧获取模块，被配置为：实时获取无人机拍摄视频帧；

搭建深层特征图跨路径融合网络；

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例1所述的一种轻型航拍图像检测方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的一种轻型航拍图像检测方法中的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种轻型航拍图像检测方法，其特征在于，包括：

实时获取无人机拍摄视频帧；

所述航拍图像检测模型的构建过程包括：

搭建用于特征提取的骨干特征提取网络；

搭建深层特征图跨路径融合网络；

所述航拍图像检测模型的训练过程包括：

2.如权利要求1所述的一种轻型航拍图像检测方法，其特征在于，所述骨干特征提取网络包括VB网络和C3SFN网络，所述VB网络为将VoVNet和残差结构Bottleneck进行融合得到的；所述C3SFN网络由一个SFN模块代替原C3网络中的Bottleneck模块得到。

3.如权利要求2所述的一种轻型航拍图像检测方法，其特征在于，所述将VoVNet和残差结构Bottleneck进行融合，包括：

将4个CBS卷积模块依次相连，每个CBS卷积模块的输出都在最后一个模块之后进行拼接，并保留了Bottleneck模块作为一条单独的路径进行拼接，在所有的拼接操作完成之后，再用1个CBS卷积模块来调整输出的通道数。

4.如权利要求2所述的一种轻型航拍图像检测方法，其特征在于，所述SFN模块是一个类Bottleneck模块，具有两个分支，其中一条分支包含两个卷积核大小为1的普通卷积和卷积核大小为3的深度可分离卷积，另一条分支也即输入，两条分支由一个拼接操作融合在一起，最后由一个Channel Shuffle操作来启用两个分支之间的信息通信。

5.如权利要求1所述的一种轻型航拍图像检测方法，其特征在于，所述深层特征图跨路径融合网络采用自上而下和自下而上的双路径特征融合方式，并在深层特征层跨路径同所述骨干特征提取网络进行融合，输出多尺度特征图。

6.如权利要求1所述的一种轻型航拍图像检测方法，其特征在于，所述训练集的构建过程包括：获取若干存在行人或车辆目标的航拍图像，对航拍图像进行预处理；

对预处理后的航拍图像中的行人和车辆进行标签标注，将部分标注后的航拍图像作为训练集。

7.如权利要求6所述的一种轻型航拍图像检测方法，其特征在于，所述对航拍图像进行预处理，包括：

首先，对航拍图像进行随机翻转、拼接和缩放处理；

其次，采用Mosaic数据增强技术处理航拍图像；

最后，将航拍图像尺寸归一化为同一大小。

8.一种轻型航拍图像检测***，其特征在于：包括：

视频帧获取模块，被配置为：实时获取无人机拍摄视频帧；

搭建深层特征图跨路径融合网络；

9.计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种轻型航拍图像检测方法中的步骤。

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种轻型航拍图像检测方法中的步骤。