CN114565842A

CN114565842A - 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及***

Info

Publication number: CN114565842A
Application number: CN202210158986.XA
Authority: CN
Inventors: 侯彪; 蒋小明; 焦李成; 张小华; 任博; 任仲乐
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-31

Abstract

本发明公开了一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及***，构建深度神经网络训练数据；构建深度全卷积特征提取神经网络和预测网络；对构建的网络模型进行训练；用训练好的深度全卷积神经网络模型对测试样本集进行预测；将训练好并且完成测试的模型转换为ONNX模型；对ONNX模型进行测试；使用TensorRT和TKDNN对ONNX模型进行加速。本发明可用于无人机目标检测、野外救援等现实生活应用。

Description

基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及***

技术领域

本发明属于图像处理技术领域，具体涉及一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及***。

背景技术

随着深度学习技术的不断发展，深度学习算法广泛的应用于各种领域。在图像处理技术领域，深度学习可以实现目标检测、实例分隔、图像分类以及图像生成等工作。通过目标检测技术，可以定位图像中需要检测和识别的目标的位置、大小，生成目标的包围框，从而方便后续对单一目标进行分析。

目标检测方法通过回归目标的包围框并对包围框内的目标进行分类，从而实现对图像中所有出现的不同类别的目标的定位。在自然图像中，由于拍摄的设备往往是相机、监控等由手持或者相对固定的设备，拍摄到的物体也往往都是垂直于地面，从而在图像中处于一种基本水平和垂直的位置。因此，在自然图像中，往往通过不同尺寸的水平矩形来定位目标。然而，在无人机视角图像中，由于无人机视角图像的拍摄方式与自然图像有很大不同，其俯视角度的拍摄使得无人机视角图像有目标尺度变化大、小目标多、目标旋转较大、目标遮挡现象、目标相对运动存在模糊现象等特点。因此在无人机视角图像的目标检测当中，采用多级融合特征图进行检测一方面可以缓解目标尺度变化大的问题和充分检测小目标，另一方面可以对遮挡和运动导致的遮挡、模糊目标进行检测。同时，现有的检测算法均存在模型推理速度慢的问题，无法实现实时目标检测。然而，在实际应用中，检测算法需要在部署硬件上实现实时的目标检测。因此，在2019年，Pengyi Zhang等发表的“SlimYOLOv3:Narrower，Faster and Better for Real-Time UAV Applications”通过使用剪枝算法、稀疏训练等方法对yolov3算法进行改进，通过迭代进行稀疏训练、剪枝压缩、微调的策略，实现了对yolov3模型的轻量化，最终Slimyolov3在1080Ti上实现了39FPS的处理速度，同时在VisDrone数据集上达到了45.6平均检测精度。然而，嵌入式硬件具有功耗小、算力低等特点，slimyolov3虽然经过压缩实现轻量化，但是仍然无法在嵌入式硬件上实现实时目标检测的部署。因此需要进行进一步的推理加速。

一般的深度学***台(比如NVIDIA Jetson)进行部署，部署端也要有与训练时相同的深度学习环境，如caffe，TensorFlow等。由于训练的网络模型可能会很大(比如，Inception，Resnet等)，参数很多，而且部署端的机器性能存在差异，就会导致推理速度慢，延迟高。这对于那些高实时性的应用场合是致命的，比如自动驾驶要求实时目标检测，目标追踪等。

所以为了提高部署推理的速度，出现了很多轻量级神经网络，比如Squeezenet，Mobilenet，Shufflenet等。基本做法都是基于现有的经典模型提出一种新的模型结构，然后用这些改造过的模型重新训练，再重新部署。而TensorRT则是对训练好的模型进行优化。TensorRT只是推理优化器。当你的网络训练完之后，可以将训练模型文件直接转化为TensorRT使用的推理引擎，而不再需要依赖深度学习框架(Caffe，TensorFlow等)

TensorRT是一个高性能的深度学***台或自动驾驶平台进行推理加速。TensorRT现已能支持TensorFlow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架，将TensorRT和NVIDIA的GPU结合起来，能在几乎所有的框架中进行快速和高效的部署推理。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及***，解决现有技术中检测过程运行速度慢的技术问题。

本发明采用以下技术方案：

基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，包括以下步骤：

S1、构建深度神经网络训练数据和深度神经网络评估数据；

S2、构建深度全卷积特征提取神经网络、特征融合网络和目标分类回归网络，将深度全卷积特征提取神经网络、特征融合网络和目标分类回归网络按照构建顺序进行组合构建完整的目标检测网络；

S3、利用步骤S1构建的深度神经网络训练数据对步骤S2构建的目标检测网络进行训练；

S4、利用步骤S3训练后的目标检测网络对步骤S1构建的深度神经网络评估数据进行预测，得到预测结果；

S5、对步骤S4得到的预测结果进行解码，得到真正的目标检测结果，将真正的目标检测结果与步骤S1构建的深度神经网络评估数据的目标标注结果进行比对，完成对步骤S3训练完成的目标检测模型的预测效果评估，得到评估检测精度最高的训练目标检测模型；

S6、使用TensorRT和tkDNN深度学习加速库在Nvidia Jetson嵌入式硬件对步骤S5检测精度最高的训练目标检测模型进行推理部署加速，实现无人机的实时目标检测。

具体的，步骤S1中，首先进行数据集转换，根据现有两顶点坐标标注数据，计算标注矩形的中心、长宽，并进行数据归一化，将归一化的标注矩形的中心、长宽及目标类别作为图像对应的标注数据，将标注矩形归一化后的中心(o_x,o_y)、归一化长宽(w,h)和目标类别作为图像对应的标注数据，然后将转换后的数据集按照9：1的比例划分，90％的图片及其对应的转换后的标注数据用于深度神经网络训练，剩余10％的图片及其对应的转换后的标注数据用于深度神经网路评估。

进一步的，标注矩形框的归一化中心(o_x,o_y)计算如下：

标注矩形的归一化长宽(w,h)计算如下：

其中，(x₁,y₁,x₂,y₂)为两点标注矩形的左上角坐标和右下角坐标，W、H分别为图像的长和宽。

具体的，步骤S2中，将骨干网络CSPDarkNet53作为深度全卷积特征提取神经网络，并将骨干网络CSPDarkNet53预定义输入尺寸调整为512×512；

构建具有三组输入和三组输出的三层FPN的轻量级特征融合网络，将主干网CSPDarkNet53输出的三组特征图输入特征融合网络得到三组不同特征抽象程度和融合程度的特征图；

将检测算法YOLOv4的目标分类回归网络作为目标分类回归网络，将特征融合网络输出的三组特征图分别输入目标分类回归网络，输出各个特征图每个像素位置是否有目标的概率、每个像素位置的目标分类为某个类别的概率、及每个像素位置的目标边界框的中心坐标相对于当前像素位置的偏移量和边界框宽高的未解码数值。

具体的，步骤S3具体为：

S301、从步骤S1中划分的训练数据集中读取预定义数量的图片及其标注数据，然后将读取的图片缩放至512x512，将图片数值均除以255，进行像素值归一化，然后输入步骤S2中构建的骨干网络CSPDarkNet53进行特征提取；

S302、步骤S301进行特征提取后，输出尺寸分别为64x64x256、32x32x512、16x16x1024的三组特征图，然后将三组特征图输入步骤S2构建的特征融合网络进行特征融合，特征融合网络输出尺寸分别为64x64x256、32x32x512、16x16x1024的融合特征图；

S303、将步骤S302输出的三组特征图输入步骤S2中构建的目标分类回归网络，输出各个特征图每个像素位置是否有目标的概率、每个像素位置的目标分类为某个类别的概率、及每个像素位置的目标边界框的中心坐标相对于当前像素位置的偏移量和边界框宽高的未解码数值；

S304、将步骤S303的输出进行解码得到预测的真正边界框及其对应的类别，使用标注数据和解码后预测的真正边界框及其对应的类别计算损失，进行步骤S2定义的目标检测网络的反向传播优化。

进一步的，步骤S301中，用预设锚点对训练数据的标签o_xe,o_ye进行编码具体为：

(o_xe,o_ye)＝(c_x-o_x,c_y-o_y)

用预测锚点对训练数据的宽高w_e,h_e进行编码具体为：

其中，c_x,c_y为三个预测特征图映射回输入图像对应网格的归一化左上角坐标，p_w,p_h为预设锚点的归一化长宽，o_x,o_y为标注矩形归一化后的中心，w，h分别为标注矩形的归一化长和宽。

进一步的，步骤S302中，将目标外接矩形与锚点框交并最大的作为正样本，剩余的锚点作为负样本，正样本的回归损失loss为：

其中，W为输入目标分类回归网络中各个特征图的宽度，H为输入目标分类回归网络中各个特征图的高度，A为输入目标分类回归网络中各个特征图上放置的锚框数量，MaxIOU为各个特征图每个位置上放置的各个锚框与其对应位置分配的标注框之间的最大交并比数值，Thresh为预定义的交并比数值的阈值，用于筛选特征图每个位置哪些锚框可以作为正样本，λ_noobj为目标分类回归网络中各个特征图上没有目标的各个位置预测为有目标的概率计算损失的加权值，

为每个特征图第i行第j列位置第k个锚框预测没有目标但是预测有目标的概率数值的负值，r为指示x,y,w,h中的第几个值，x,y,w,h为边界框的中心坐标和宽高，

为特征图上每个位置设置的第k个锚框四个参数x,y,w,h中第r数值，

为特征图上第i行第j列位置为第k个锚框预测的x,y,w,h中的第r数值，

为指示特征图上每个位置设置的第k个锚框是否分配了标注框，λ_coord为边界框损失的加权值，truth^r为标注框的x,y,w,h中的第r数值，λ_obj为目标分类回归网络中各个特征图上有目标的各个位置预测为有目标的概率的数值与真实值计算的损失的加权值，

为第k个锚框与当前位置分配的标注框之间的交并比，

为每个特征图第i行第j列位置第k个锚框预测有目标的概率数值，λ_class为目标分类回归网络中各个特征图上有目标的各个位置预测为某个类别概率与真实值类别之间计算的损失的加权值，truth^c为目标分类回归网络中各个特征图上有目标的每个位置目标为第c类别的数值，

为个特征图第i行第j列位置第k个锚框预测为第c类别的概率值。

具体的，步骤S5具体为：

S501、对步骤S4中目标检测网络输出的中心长宽和偏移量进行解码，得到目标的实际预测框；

S502、对所有检测框计算交并比，将交并比大于0.7的目标视为重复检测同一个目标，仅保留分类分数最高的一个，对经过非极大值抑制后保留的检测框进行后处理，将得到的框进行校准，将校准后的检测框与测试数据对应的标注真实框尽心比对，计算检测精度；

S503、重复步骤S3至步骤S5，直至步骤S3完成所有训练迭代次数后，将步骤S4和步骤S5评估某次迭代后精度最高的训练模型作为最高训练目标检测模型。

具体的，步骤S6具体为：

S601、将步骤S5中评估的最高训练目标检测模型转化为ONNX格式的模型，并进行ONNX模型的推理验证；

S602、利用TensorRT自有的转化工具将步骤S601中ONNX格式的模型转化为TensorRT支持的引擎文件；

S603、使用tkDNN库对步骤S602转化完成的TensorRT引擎文件进行部署。

本发明的另一个技术方案是，一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测***，包括：

数据模块，构建深度神经网络训练数据和深度神经网络评估数据；

组合模块，构建深度全卷积特征提取神经网络、特征融合网络和目标分类回归网络，将深度全卷积特征提取神经网络、特征融合网络和目标分类回归网络按照构建顺序进行组合构建完整的目标检测网络；

训练模块，利用数据模块构建的深度神经网络训练数据对组合模块构建的目标检测网络进行训练；

预测模块，利用训练模块训练后的目标检测网络对数据模块构建的深度神经网络评估数据进行预测，得到预测结果；

评估模块，对预测模块得到的预测结果进行解码，得到真正的目标检测结果，将真正的目标检测结果与数据模块构建的深度神经网络评估数据的目标标注结果进行比对，完成对训练模块训练完成的目标检测模型的预测效果评估，得到评估检测精度最高的训练目标检测模型；

检测模块，使用TensorRT和tkDNN深度学习加速库在Nvidia Jetson嵌入式硬件对评估模块检测精度最高的训练目标检测模型进行推理部署加速，实现无人机的实时目标检测。

与现有技术相比，本发明至少具有以下有益效果：

本发明基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，通过数据集处理、训练和部署，通过tkDNN库和TensorRT将目标检测算法加速后，在Jetson AGX Xavier上可以达到31FPS的检测速度，并且能准确的识别出图像中目标的类别和位置，无人机通过搭载tkDNN库和TensorRT加速部署完成目标检测算法的Jetson AGX Xavier硬件，实现无人机图像的实时采集与处理，轻松完成目标检测算法的训练和部署，用于解决现有技术中存在的无人机视角图像多尺度检测准确率低与检测速度慢的问题。

进一步的，根据设计的检测算法的特点和任务特点制作数据集可以保证数据的干净，产生能用的、高质量的的、难度适中的数据集。

进一步的，将数据进行归一化处理可以消除量纲差异，从而消除奇异样本数据导致的不良影响，提升模型的收敛速度和模型的精度。

进一步的，将检测算法拆分为各个独立的模块，如深度全卷积特征提取神经网络、特征融合网络和目标分类回归网络，可以方便整个检测算法的搭建以及进行针对性的调优。

进一步的，针对设计的检测算法设计合适算法的损失函数，并使用构建的数据集进行训练，并根据训练情况对整个检测算法的各个模块设计进行调优，保证设计的整个检测算法网络在构建的数据集上达到最优的效果。

进一步的，将训练图片缩放至固定尺寸可以提高训练和推理的速度，同时，在训练时将图片像素值均除以255进行归一化，可以提高网络训练的稳定性。

进一步的，将深度全卷积特征提取神经网络输出的不同分辨率的特征图输入特征融合网络可以将不同分辨率的特征图中的语义信息进行融合，提高最后的检测效果。

进一步的，对每一次在所有训练数据集上完成一次训练的模型进行评估，将评估精度最高的模型作为最优模型，保证部署应用时使用的是在训练数据集上学习效果最好的模型。

进一步的，将评估后最优的模型进行加速部署，可以保证在部署环境中有足够的速度处理收集的数据，适应任务的实时性。

综上所述，本发明可用于无人机视角地物检测、救灾、农业病虫害检测、野外救援等。精准识别定位目标物，节省了更多的人力及时间，面对严峻的环境无人机代替人工实现高空作业，成为人类的第三只眼睛。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的实现流程框图；

图2为无人机视角的标注数据集中包含行人与车的自然图像，其中，(a)为COCO数据集，(b)为Visdrone数据集；

图3为本发明对包含人和车的无人机视角图像的检测图，其中，(a)为图2(a)的检测图，(b)为图2(b)的检测图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，构建深度神经网络训练数据；构建深度全卷积特征提取神经网络和预测网络；对构建的网络模型进行训练；用训练好的深度全卷积神经网络模型对测试样本集进行预测；将训练好并且完成测试的模型转换为ONNX模型；对ONNX模型进行测试；使用TensorRT和tkDNN(使用cuDNN和tensorRT原语构建的深度神经网络库)对ONNX模型进行加速，用于解决现有技术中存在的无人机视角图像多尺度检测准确率低与检测速度慢的问题。

请参阅图1，本发明一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，包括以下步骤：

S1、构建深度神经网络训练数据和深度神经网络评估数据；

根据现有两顶点坐标标注数据，进行数据集转换，计算标注矩形的中心、长宽，并进行数据归一化，将归一化的标注矩形的中心、长宽参数及目标类别作为图像对应的训练数据。

若两点标注矩形为(x₁,y₁,x₂,y₂)，图像的长宽分别为W、H，其中，(x₁,y₁)为标注矩形框的左上角坐标，(x₂,y₂)为标注矩形的左下角坐标。

标注矩形框的归一化中心(o_x,o_y)计算如下：

标注矩形的归一化长宽(w,h)计算如下：

将标注矩形归一化后的中心(o_x,o_y)、归一化长宽参数(w,h)和目标类别作为图像对应的训练数据，然后将转换后的整个数据集按照9：1的比例划分，90％的图片及其对应的转换后的标注数据用于深度神经网络训练，10％的图片及其对应的转换后的标注数据用于深度神经网路评估。

S2、构建深度全卷积特征提取神经网络、特征融合网络和目标分类回归网络，将深度全卷积特征提取神经网络、特征融合网络和目标分类回归网络按照构建顺序进行组合构建完整的目标检测网络，将常用的骨干网络CSPDarkNet53作为深度全卷积特征提取神经网络；

参考特征融合模块FPN的构建方式，仅构建具有三组输入和三组输出的三层FPN的轻量级特征融合网络；将检测算法YOLOv4的目标分类回归网络作为目标分类回归网络。

S301、在三个特征图的每个点上分别设置三个特征图各自对应的3个不同尺度的锚点，将训练数据的标签用预设锚点进行编码；

将训练数据的标签用预设锚点进行编码，三个特征图分别对应的三个锚点的非归一化长宽分别为(12，16)，(19，36)，(40，28)；(36，75)，(76，55)，(72，146)；(142，110)，(192，243)，(459，401)。

对训练数据的标签用预设锚点进行编码的公式为：

(o_xe,o_ye)＝(c_x-o_x,c_y-o_y)

训练数据的宽高用预测锚点进行编码的公式为：

其中，c_x,c_y为三个预测特征图映射回输入图像对应网格的归一化左上角坐标，p_w,p_h为预设锚点的归一化长宽，o_x,o_y为步骤S1中标注矩形归一化后的中心(o_x,o_y)，w，h为标注矩形的归一化长宽(w,h)。

S302、每次在训练数据集中随机选取一定的训练样本，将训练样本的图像缩放之512x512，并将图像的数值除以255，然后输入骨干网络CSPDarkNet53进行特征提取并输出尺寸分别为64x64x256、32x32x512、16x16x1024的三组特征图，然后将三组特征图输入S2中构建的特征融合网络进行特征融合，特征融合网络输出尺寸分别为64x64x256、32x32x512、16x16x1024的融合特征图。最后将特征融合网络输出的三组特征图输入S2中构建的目标分类回归网络，输出各个特征图每个像素位置是否有目标的概率、每个像素位置的目标分类为某个类别的概率、及每个像素位置的目标边界框的中心坐标相对于当前像素位置的偏移量和边界框宽高的未解码数值，即回归Cls_score，Obj_score，O_xe，O_ye，w_e，h_e五个数值；

S303、选取正样本和负样本，并设计损失函数，并对损失函数进行平滑确保其可导性。

将目标外接矩形与锚点框交并最大的作为正样本，其他的锚点作为负样本，其中正样本计算回归损失和分类损失、负样本只计算分类损失，其他锚点作为丢弃样本损失为0。

训练损失采用平方损失，包括边框位置误差、置信度误差、对象分类误差三部分。正样本的回归损失loss为：

其中，第一项为边框置信度误差，将预测边框内没有目标的预测框纳入计算范围，其判断方法为预测框与标注框的IOU小于阈值。第二项为边框与先验框的位置误差，仅在前12800次迭代。第三项为边框内有目标的位置误差，判断方法为预测框与标注框的IOU大于阈值。第四项为边框内有目标的边框置信度误差。最后一项为边框内有目标的目标分类误差，损失计算完成后使用反向传播算法和随机梯度优化算法进行优化。

正样本的分类损失为：

将训练图像及标签输入神经网络，学习率设置为0.01训练19500轮，最后的5000轮训练，每训练1000轮，学习率衰减为原来的十分之一。

将待预测的遥感图像输入训练好的深度全卷积神经网络模型，将分类网络输出的类别分数最大值大于0.25的输出值输出进行过滤，同时保留对应的回归网络的输出值。

S501、对模型回归网络输出的中心长宽和偏移量进行解码，得到目标的实际预测框；

对模型预测的中心偏移量(t_x,t_y)采用匹配的网格左上角坐标(c_x,c_y)和锚点长宽(p_w,p_h)进行解码，得到实际的回归框中心(b_x,b_y)＝(σ(t_x)+c_x,σ(t_y)+c_y)，

其中，σ是sigmod函数；对模型预测的长宽相对比例(b_w,b_h)采用匹配的锚点长宽(p_w,p_h)进行解码，得到实际的长宽

S502、应用非极大值抑制算法过滤检测框：对所有检测框计算交并比，将交并比大于0.7的目标视为重复检测同一个目标，仅保留分类分数最高的一个。对经过非极大值抑制后保留的检测框进行后处理，将得到的框进行校准。

矩形交并比IoU为：

其中，Area1和Area2分别为两个旋转矩形的面积，Inter为两个矩形相交区域的面积

预测矩形相交区域面积计算如下：

计算任一矩形各边与另一矩形左上角坐标的最小值，计算任一矩形各边与另一矩形右下角坐标的最大值。求得的左上角坐标与右下角坐标即为两个相交矩形相交部分矩形的左上角坐标和左下角坐标。通过左上角坐标与右下角坐标求的相交部分的面积。

S503、计算准确率(Precision)、召回率(Recall)、AP(Average Precision)和mAP(mean Average Precision)模型评估指标，得到检测精度最高的训练目标检测模型，为得到上述指标,需要TP(真正例)、FP(假正例)、TN(真负例)、FN(假负例)等值的计算。

首先，根据置信度阈值thres_score(如0.5)将模型输出的某一类别的目标检测结果划分为正类(Positive)和负类(Negative)，然后设定IoU阈值thres_iou(如0.5)，若正类预测框与其具有最大交并比的真实框的IoU大于阈值thres_iou，则判别该框为TP；否则，判别该框为FP；一个真实框可能与多个正类预测框满足IoU匹配规则，此时判别置信度得分最高的预测框为TP，其余均为FP。

最后，没有与正类预测框实现匹配的真实框为FN，然后根据以下以下两个公式计算准确率(Precision)、召回率(Recall)。

Precision和Recall受IoU阈值和置信度阈值的影响,当固定IoU阈值而改变置信度阈值时,会得到多对不同的Precision和Recall值。以准确率为纵轴、召回率为横轴，即可绘制出一条Precision-Recall曲线，简称P-R曲线。AP是某一类别的平均检测精度，P-R曲线下面积即为该类别的AP值。mAP是所有类别的平均检测精度的均值，单类目标检测器的AP在数值上等于mAP。最后将计算所得的mAP最高的训练目标检测模型作为检测精度最高的模型。

S601、将步骤S5评估检测精度最高训练模型转化为ONNX格式的模型，并进行ONNX模型的推理验证；

S602、利用TensorRT自有的转化工具步骤S601中转化为ONNX的模型转化为TensorRT支持的引擎文件；

S603、使用tkDNN库对步骤S602转化完成的TensorRT引擎文件进行部署，经过步骤S6以后，得到了在测试数据集上评估精度最高并完成加速的TensorRT引擎文件，通过tkDNN库将此TensorRT引擎文件部署至英伟达的Jetson AGX Xavier上达到31Fps的高效推理速度。无人机云台采集的图像数据一般为25～30Fps，因此通过无人机搭载Jetson AGXXavier硬件，可以使本发明的目标检测算法实时处理无人机云台采集的图像数据，从而达到实时的无人机目标检测。。

本发明再一个实施例中，提供一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测***，该***能够用于实现上述基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，具体的，该基于Nvidia Jetson嵌入式硬件的无人机实时目标检测***包括数据模块、组合模块、训练模块、预测模块、评估模块以及检测模块。

其中，数据模块，构建深度神经网络训练数据和深度神经网络评估数据；

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合仿真实验，对本发明的技术效果作进一步详细描述。

1、仿真条件：

本发明的仿真实验采用的硬件测试平台是：

RTX 2080Ti(CUDA 10.2，TensorRT 7.1.0，Cudnn 8.0.0)；

Xavier NX，Jetpack 4.4(CUDA 10.2，CUDNN 8.0.0，TensorRT 7.1.0)；

Tx2，Jetpack 4.2(CUDA 10.2，CUDNN 8.0.0，TensorRT 7.1.0)；

操作***均为18.04.1-Ubuntu操作***、Python-3.7.9、PyTorch-1.6.0、GCC-8.0、Cmake-3.18。

2、仿真内容和仿真结果分析：

本发明对实施例中的图像数据使用tkDNN库和TensorRT加速后的目标检测方法仿真，并在不同硬件平台上进行了对比，实验中在1200张测试集图像上进行推理，计算平均单张图推理耗时，图2(a)和图2(b)是从测试集中随机选取的两张图片，图2中(a)为无人机在距地面垂直高度为20米，摄像头俯角为45度拍摄的图片，图2中(b)为无人机在距地面垂直高度为10米，摄像头俯角为30度拍摄的图片，平均单张图推理耗时(fps)参照表1。

表1本发明的目标检测算法在不同硬件平台上的运行速度(每秒处理帧数fps)

从表1看出，在不同的硬件平台上tkDNN库和TensorRT加速后的目标检测模型相对于未加速前检测速度均有提升，特别是使用FF16半精度加速推理，可以得到2倍的加速比。因此，本发明可以显著的提高检测算法在Nvidia硬件上的运行速度，为检测算法在实时检测领域提供了方法和借鉴。

请参阅图3，图3中的图(a)和图(b)为tkDNN库和TensorRT加速后的目标检测方法在Jetson AGX Xavier上运行得到推理结果解码后进行可视化的结果图，可以明显看到加速后的目标检测方法仍能准确的识别出图像中目标的类别和位置。

综上所述，本发明一种基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及***，通过tkDNN库和TensorRT将目标检测算法加速后，在Jetson AGX Xavier上可以达到31FPS的检测速度，并且能准确的识别出图像中目标的类别和位置。无人机通过搭载tkDNN库和TensorRT加速部署完成目标检测算法的Jetson AGX Xavier硬件，可以实现无人机图像的实时采集与处理。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，其特征在于，包括以下步骤：

S1、构建深度神经网络训练数据和深度神经网络评估数据；

2.根据权利要求1所述的基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，其特征在于，步骤S1中，首先进行数据集转换，根据现有两顶点坐标标注数据，计算标注矩形的中心、长宽，并进行数据归一化，将归一化的标注矩形的中心、长宽及目标类别作为图像对应的标注数据，将标注矩形归一化后的中心(o_x,o_y)、归一化长宽(w,h)和目标类别作为图像对应的标注数据，然后将转换后的数据集按照9：1的比例划分，90％的图片及其对应的转换后的标注数据用于深度神经网络训练，剩余10％的图片及其对应的转换后的标注数据用于深度神经网路评估。

3.根据权利要求2所述的基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法，其特征在于，标注矩形框的归一化中心(o_x,o_y)计算如下：