CN113160062B

CN113160062B - 一种红外图像目标检测方法、装置、设备及存储介质

Info

Publication number: CN113160062B
Application number: CN202110572928.7A
Authority: CN
Inventors: 徐召飞; 金荣璐; 刘晴; 王云奇; 王水根
Original assignee: Iray Technology Co Ltd
Current assignee: Iray Technology Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-06-06
Anticipated expiration: 2041-05-25
Also published as: CN113160062A

Abstract

本申请公开了一种红外图像目标检测方法、装置、设备及存储介质，包括：建立红外图像数据集，并进行数据增强预处理，生成训练样本集；根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络，其主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost‑depthWise卷积模块和1个SPP卷积模块进行构建；其多尺度目标检测层采用FPN网络结合PAN网络进行构建；使用训练样本集对网络进行训练；对训练完的网络进行通道剪枝并重新训练；按照目标平台要求对重新训练完的网络进行转换。这样避免了使用复杂的算子计算，舍弃冗余特征信息，丰富特征的表征内容，不存在模组转换问题，运算速度快，检测精度高。

Description

一种红外图像目标检测方法、装置、设备及存储介质

技术领域

本发明涉及红外图像处理领域，特别是涉及一种红外图像目标检测方法、装置、设备及存储介质。

背景技术

近年来，红外成像技术在自动驾驶、智能安防、遥感以及工业监测等领域得到广泛的应用，鉴于全天候不间断侦测的需求，双光设备(可见光+红外)部署越来越多，同时对于视觉图像处理技术的需求也逐渐增多。在天气状况良好时，利用普通可见设备可满足绝大部分需求，然而在雨天、雾天或夜间等状况下可见光设备成像效果较差，不利于后端图像处理，长波红外利用其被动成像原理恰好可弥补可见光在恶劣天气无法获取高质量图像效果的情况。在利用双光设备进行实时监测的应用领域中，目标检测和分类是其重要机器视觉业务需求之一。

随着智能科学技术与社会的共同发展，人工智能技术在目标检测和识别领域取得了很深的进展，在各类场景中都取得了极好的识别效果。典型的单阶段目标检测网络包括DetectorNet、OverFeat、YOLO系列和SSD(Single Shot Detector)等，具有速度快精度稍低等特点；典型的双阶段目标检测网络包括RCNN系列、SPPNet(Spatial Pyramid Pooling)、RFCN(Region based Fully ConvNet)和MRCNN等，具有检测精度高运行速度慢等特点。上述网络其骨干结构多为VGG、ResNet、GoogleNet、Darknet或AlexNet等，一方面它们大多应用于RGB彩色图像，通常可以较为容易的提取其颜色、纹理等特征用于网络训练，得到较为精确的识别和定位，而对于红外图像，主要是通过提取其轮廓特征进行识别，所以一般的深度目标检测网络不能很好的直接迁移应用于红外图像；另一方面当前目标检测网络模型相对于低成本低算力嵌入式平台上仍然难以部署，在模型推理过程会消耗大量的计算资源和存储资源，导致无法在相同嵌入式平台上同时运行其他业务，若所设计的网络模型中有较多自定义算子或较新算子时，并且需要部署的平台无法对该算子进行解析计算，则整个模型设计工作需要从头开始。基于传统运动目标检测的方式虽然可完成目标定位，但无法判断所侦测到的目标类别(人、车、非机动车等)，并且传统方法比较适用于监测设备固定的情况下，即背景是基本不发生变化的情况，若搭载的设备是车载或转动云台等设备时刻在发生变换的场景，使用传统方法会出现大量误检测。

发明内容

有鉴于此，本发明的目的在于提供一种红外图像目标检测方法、装置、设备及存储介质，可以解决当前基于深度学习的人车目标检测网络模型复杂、参数过多、运算慢、对红外小目标检测差的问题。其具体方案如下：

一种红外图像目标检测方法，包括：

建立红外图像数据集，并进行数据增强预处理，生成训练样本集；

根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；所述红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP卷积模块进行构建；所述红外图像目标检测网络的多尺度目标检测层采用由FPN网络和PAN网络组合的金字塔结构进行构建；

使用所述训练样本集对构建的所述红外图像目标检测网络进行训练；

对训练完成的所述红外图像目标检测网络进行通道剪枝并重新训练；

按照目标平台要求，使用嵌入式平台AI模块转换工具链对重新训练完成的所述红外图像目标检测网络进行转换。

优选地，在本发明实施例提供的上述红外图像目标检测方法中，在所述建立红外图像数据集之后，还包括：

对所述红外图像数据集使用矩形框对目标进行标注，并记录所述矩形框的坐标位置；

在标注阶段对于重叠率大于90％的两个目标标注为一个目标，并在所有目标标注完成后将目标像素面积占比小于万分之三的标注信息删除。

优选地，在本发明实施例提供的上述红外图像目标检测方法中，所述进行数据增强预处理，包括：

每次从所述红外图像数据集中随机选取四张图像，从四张图像中随机选取一张作为底版图像；

将其余三幅图像等比例缩放至底版图像大小；

将其余三幅图像中的目标随机选择抠出，将抠出来的目标进行随机缩放，缩放后的大小不能超过图像总像素面积的1/16；

将抠出的三幅图像目标随机缩放后随机粘贴到底版图像中；若目标随机粘贴的位置覆盖已经在图像存在目标的60％以上或目标随机粘贴的位置超出图像边界，则舍弃当前抠出的目标；

对粘贴的目标所标注的矩形框的坐标位置进行相应的调整。

优选地，在本发明实施例提供的上述红外图像目标检测方法中，所述focus图像重排模块利用focus结构对图像进行切片操作来扩展图像的通道数目；

所述Ghost-depthWise卷积模块通过深度可分离卷积生成第一特征图，通过分组1x1卷积操作结合所述第一特征图生成第二特征图，并将所述第一特征图和所述第二特征图中的信息进行组合，得到具有全部特征信息的特征图；

所述SPP卷积模块在不同尺度上将特征图划分成不同的空间区域，在每个区域上计算特征向量，并将计算得到的所有特征向量组合起来，以将任意分辨率的特征图转换为与全连接层相同维度的特征向量；

所述focus图像重排模块与第一个所述Ghost-depthWise卷积模块之间采用步长为1的卷积层进行连接；相邻两个所述Ghost-depthWise卷积模块之间采用步长为2的卷积层进行连接；最后一个Ghost-depthWise卷积模块与所述SPP卷积模块之间采用步长为2的卷积层进行连接；所述Ghost-depthWise卷积模块的通道数目沿图像输入至输出的方向为递增模式。

优选地，在本发明实施例提供的上述红外图像目标检测方法中，在进行目标检测之后，使用非极大值抑制约束对所述红外图像目标检测网络输出的目标检测结果进行筛选。

优选地，在本发明实施例提供的上述红外图像目标检测方法中，在训练所述红外图像目标检测网络时，回归定位预测选择softmax损失函数，分类预测选择交叉熵损失函数。

优选地，在本发明实施例提供的上述红外图像目标检测方法中，所述对训练完成的所述红外图像目标检测网络进行通道剪枝并重新训练，包括：

统计训练完成的所述红外图像目标检测网络的目标特征提取主干网络中各卷积层的通道方向上的内核权重值之和；

根据所述权重值之和的大小和各卷积层设置的裁剪比例，对相应的卷积层进行裁剪；其中，所述focus图像重排模块与第一个所述Ghost-depthWise卷积模块之间的卷积层以及所述FPN网络连接的卷积层不进行裁剪；

将已发生过裁剪的卷积层使用未裁剪的权重作为所述红外图像目标检测网络的初始化参数，未发生过任何裁剪的卷积层在训练过程中权重不更新，对所述红外图像目标检测网络进行重新训练。

本发明实施例还提供了一种红外图像目标检测装置，包括：

训练集生成单元，用于建立红外图像数据集，并进行数据增强预处理，生成训练样本集；

网络构建单元，用于根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；所述红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP卷积模块进行构建；所述红外图像目标检测网络的多尺度目标检测层采用由FPN网络和PAN网络组合的金字塔结构进行构建；

网络训练单元，用于使用所述训练样本集对构建的所述红外图像目标检测网络进行训练；还用于对训练完成的所述红外图像目标检测网络进行通道剪枝并重新训练；

网络转换单元，用于按照目标平台要求，使用嵌入式平台AI模块转换工具链对重新训练完成的所述红外图像目标检测网络进行转换。

本发明实施例还提供了一种红外图像目标检测设备，包括处理器和存储器，其中，所述处理器执行所述存储器中存储的计算机程序时实现如本发明实施例提供的上述红外图像目标检测方法。

本发明实施例还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如本发明实施例提供的上述红外图像目标检测方法。

从上述技术方案可以看出，本发明所提供的一种红外图像目标检测方法，包括：建立红外图像数据集，并进行数据增强预处理，生成训练样本集；根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP卷积模块进行构建；红外图像目标检测网络的多尺度目标检测层采用由FPN网络和PAN网络组合的金字塔结构进行构建；使用训练样本集对构建的红外图像目标检测网络进行训练；对训练完成的红外图像目标检测网络进行通道剪枝并重新训练；按照目标平台要求，使用嵌入式平台AI模块转换工具链对重新训练完成的红外图像目标检测网络进行转换。

本发明提供的上述方法中所构建的红外图像目标检测网络的主干网络由focus图像重排模块、Ghost-depthWise卷积模块结合SPP卷积模块组成，多尺度目标检测层由FPN网络结合PAN网络组成，又使用通道剪枝的方法对该网络做进一步压缩，可以避免使用复杂的算子计算，舍弃冗余的特征信息，极大丰富特征的表征内容，提升检测性能，并且该网络根据对应嵌入式平台进行设计，网络所用算子均为平台所支持类型，不存在模组转换问题，整个网络模型小、计算速度快、通用性强，满足嵌入式平台业务的需求，易移植到低端AI芯片，具有较高的检测精度和运算速度，能够支持目前市场上的主流应用平台，有应用潜力。此外，本发明还针对红外图像目标检测方法提供了相应的装置、设备及计算机可读存储介质，进一步使得上述方法更具有实用性，该装置、设备及计算机可读存储介质具有相应的优点。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的红外图像目标检测方法的流程图；

图2为本发明实施例提供的红外图像目标检测网络的结构示意图；

图3为本发明实施例提供的focus图像重排模块的操作示意图；

图4为本发明实施例提供的特征提取模块的卷积层结构；

图5为本发明实施例提供的残差结构示意图；

图6为本发明实施例提供的Ghost-depthWise卷积模块的卷积过程示意图；

图7为本发明实施例提供的SPP空间金字塔池化结构示意图；

图8为本发明实施例提供的FPN和PAN结构示意图；

图9为本发明实施例提供的通道剪枝示意图；

图10为本发明实施例提供的红外图像目标检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种红外图像目标检测方法，如图1所示，包括以下步骤：

S101、建立红外图像数据集，并进行数据增强预处理，生成训练样本集。

具体地，可以在不同天气下不同时间段内采用不同焦距红外成像摄像头对着路口进行拍摄，例如使用9种不同焦距挂在不同位置的红外摄像头进行数据采集(2mm、3.2mm、4.3mm、7mm、13mm、19mm、25mm和35mm)，不同焦距红外成像仪器距离地面高度不同(从2m—25m)，能够采集到不同视角下的人车特征信息，最后筛选掉无目标、不清晰等不合格图像后共获得三万余张红外人车图像作为检测数据集。这里的目标可以包括人、车、非机动车等。

S102、根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP(Spatial Pyramid Poolinglayer，空间金字塔池化)卷积模块进行构建；红外图像目标检测网络的多尺度目标检测层采用由FPN(Feature Pyramid Network，特征金字塔网络)网络和PAN(Path Aggregation Network，路径聚合网络)网络组合的金字塔结构进行构建。

可以理解的是，该方法结合嵌入式平台所支持的算子与所提供的算力为基础，设计一种可以满足检测精度需求的神经网络模型，并且易于部署于所搭载的前端计算设备中，整个网络设计思路并不依赖于某个固定型号的设备，针对目标检测业务在不同的嵌入式设备部署过程中都可参考本发明。

由于红外图像对比度低、细节少且只有单通道亮度信息(温度越高灰度值越大，反之亦然)等特点，使得其相对于普通的RGB图像缺少更多的信息，增加了在红外图像上进行目标检测的难度，因此本发明的网络设计主要关注于红外目标轮廓的提取，避免使用复杂的算子计算，舍弃冗余的特征信息。在此前提下，如图2所示，本发明的主干网络采用Ghost-depthwise组卷积模块结合SPP获取不同尺度上的精简目标特征图；然后使用FPN和PAN结构将高层语义信息和底层位置信息进行多尺度融合，最后将融合后的不同尺度特征图分别送入作为检测层的卷积层中进行处理，得到真正目标检测的结果。

S103、使用训练样本集对构建的红外图像目标检测网络进行训练。

S104、对训练完成的红外图像目标检测网络进行通道剪枝并重新训练。

需要说明的是，结合红外图像特点与嵌入式设备支持的算力，已经初步完成了红外图像目标检测网络的设计，但对于实时性要求较高平台依然难以完成部署，因此本发明通过通道剪枝的方法对网络模型进一步压缩。

S105、按照目标平台要求，使用嵌入式平台AI模块转换工具链对重新训练完成的红外图像目标检测网络进行转换。最后，可以对生成后的目标平台模型进行部署与红外目标检测验证。

在本发明实施例提供的上述红外图像目标检测方法中，所构建的红外图像目标检测网络的主干网络由focus图像重排模块、Ghost-depthWise卷积模块结合SPP卷积模块组成，多尺度目标检测层由FPN网络结合PAN网络组成，又使用通道剪枝的方法对该网络做进一步压缩，可以避免使用复杂的算子计算，舍弃冗余的特征信息，极大丰富特征的表征内容，提升检测性能，并且该网络根据对应嵌入式平台进行设计，网络所用算子均为平台所支持类型，不存在模组转换问题，整个网络模型小、计算速度快、通用性强，满足嵌入式平台业务的需求，易移植到低端AI芯片，具有较高的检测精度和运算速度，能够支持目前市场上的主流应用平台，有应用潜力。

在实际应用中，即使只有单红外摄像头的设备中也可用本发明实施例提供的上述红外图像目标检测方法进行全天候侦测。

在具体实施时，在本发明实施例提供的上述红外图像目标检测方法中，在步骤S101建立红外图像数据集之后，还可以包括：对红外图像数据集使用矩形框对目标进行标注，并记录矩形框的坐标位置，具体以图像的左上角为坐标原点[0,0],使用[x1,y1,x2,y2]的形式记录矩形框的位置，x1表示矩形框的左上角横坐标，y1表示矩形框的左上角纵坐标，x2表示矩形框的右下角横坐标，y2表示矩形框的右下角纵坐标，所有标签信息以xml文件的形式进行保存；为了降低目标误检率，在数据集标注阶段对于重叠率大于90％的两个目标标注为一个目标，并在所有目标标注完成后将目标像素面积占比小于万分之三的标注信息删除。

由于在网络模型裁剪过程中可能会出现模型精度下降的问题，在深度学习中样本的丰富性可增大网络模型泛化能力和预测能力，因此本发明使用多种数据增强混叠方式来提升裁剪后的模型精度。在训练中对图像进行数据增强可以提高网络模型的泛化能力，目标检测中的数据增强方法跟普通的数据增强区别在于还要考虑候选框的变换。常规的数据增强包括随机裁剪，扭曲，扩增，镜像，形变等。本发明为了提升模型检测精度在训练时会使用随机缩放拼接方式作为数据增强的补充。

数据集中包含大量的小目标，并且这些小目标的分布并不均匀，由于红外数据相对于一般的彩色数据包含的信息更少，对于小目标的检测也更为艰难。训练数据集中，不同大小的目标分布特点都会影响检测网络的训练精度，因此需要对训练数据进行数据增强，丰富数据集，增强检测网络的鲁棒性，增强检测网络对小目标的检测能力。

在具体实施时，在本发明实施例提供的上述红外图像目标检测方法中，步骤S101进行数据增强预处理，可以包括：每次从红外图像数据集中随机选取四张图像，从四张图像中随机选取一张作为底版图像；将其余三幅图像等比例缩放至底版图像大小；将其余三幅图像中的目标随机选择抠出，比如某幅图像中有三个目标可以随机选择1、2或3个目标抠出，将抠出来的目标进行随机缩放，缩放后的大小不能超过图像总像素面积的1/16；将抠出的三幅图像目标随机缩放后随机粘贴到底版图像中；若目标随机粘贴的位置覆盖已经在图像存在目标的60％以上或目标随机粘贴的位置超出图像边界，则舍弃当前抠出的目标；对粘贴的目标所标注的矩形框的坐标位置进行相应的调整。

使用上述方法可以丰富数据集，拼接完后图像中的增加了目标数量；利用随机缩放尽可能保持了图像中目标特征的完整性，缓解了随机裁剪所带来的特征信息丢失。另外这种方式使得数据分布更加随机化，便于模型学习所有数据的一般性特征，提高模型的泛化能力。

在执行步骤S101进行数据增强预处理之前，还可以包括两个步骤：调整图像大小和归一化处理。

由于网络需要输出固定大小的图像，首先需要对所有图像进行拉伸，将图像大小调整至所需大小。为了保持图像不发生形变，需要对图像进行同比例压缩，空余位置填充黑色，具体计算方式如式(1)-(3):

设模型输入大小为(model_in_w,model_in_h)，图像真实分辨率为(img_in_w,img_in_h)，则缩放比例为：

Ration＝min(model_in_w/img_in_w,model_in_h/img_in_h)； (1)

Pad_w＝model_in_w-img_in_w*Ration； (2)

Pad_h＝model_in_h-img_in_h*Ration； (3)

为了避免出现数值问题以及加快网络收敛，需要对输入数据做归一化处理：首先计算图像中所有像素点的均值和标准差，然后将输入图像的每个象素值都减去均值，再除以标准差，得到归一化的结果，计算方式如式(4)：

其中，u表示图像均值，x_img表示图像矩阵，stddev表示图像标准差。

在具体实施时，在本发明实施例提供的上述红外图像目标检测方法中，在执行步骤S102之前，还可以包括：对所要部署的嵌入式设备进行调研，查看其AI模型推理模块所使用的硬件资源以及所支持的开源模型框架。

具体地，由于各嵌入式AI平台所支持的算子与平台算力不同，因此网络模型设计初始阶段要先查看所支持的模型框架与常规模型推理性能。若所要部署的平台仅支持caffe模型框架，在模型训练过程中最好使用caffe进行模型设计，不然会额外增加其他模型到caffe模型的转换步骤工作；若所要部署的平台仅支持caffe、tensorflow、pytorch和onnx等主流模型框架，则可以使用所擅长的模块进行整体模型结构设计；在了解到平台所支持的训练框架后，还需查看所支持的算子类型，若选择了平台所支持的开源框架，但其模型设计中却有不支持的算子，整个模型设计依然无效，需重新更改设计方案；除此还需要查看平台基本模型性能测试表，比如mobilenet、vgg、resnet、ssd和yolov系列等模型推理时长和内存占用情况，以此来初步预估在业务所要求的条件下，设计的模型是否能在对应平台完成部署。

在本实施例中，整体网络设计以部署到嵌入式设备为目标，所以主干网络要具有足够的表达能力可以提取到目标的特征，同时要兼具较快的推理速度，因此目标特征提取主干网络要起到加速提取特征和降低特征输入尺度的作用；多尺度目标检测层需起到大小目标都可分类定位的作用，因此需要在多个尺度完成目标检测，最终的检测结果输出层需要将多个尺度的检测结果进行融合，使用一定的策略完成最优目标定位与分类。就以上而言，本发明可以将整个网络设计分为三个模块：特征提取模块(即目标特征提取主干网络)、特征检测模块(即多尺度目标检测层)和检测结果输出模块。

在具体实施时，设计特征提取模块时，首先设计focus图像重排模块，然后focus图像重排模块接入带有残差结构的Ghost卷积模块中，最后接入SPP模块。

在focus图像重排模块中，利用focus结构降低输入图像的分辨率，将降采样后的图像内容拼接到输入层的3维方向中的Z轴，即扩展图像的通道数目。如图3所示，对图像进行切片操作，具体操作是在一张图像中每隔一个像素拿到一个值，类似于邻近下采样，可就获取相比于原图长宽减半的四张图像，将W、H信息就集中到了通道空间，输入通道扩充了4倍。最后将得到的新图像再经过卷积操作，最终得到了没有信息丢失情况下的二倍下采样特征图。

Focus模块接入带有残差结构的Ghost卷积模块中，借鉴了残差结构的思想，将输入和输出进行连接，可以跨过更多的层来构建更深层次的网络。从输入层传过来的特征图会被分为两个部分，Part2部分送入残差块结构进行处理后与Part1进行通道拼接得到最后的输出。特征提取模块的卷积层结构示意图如图4所示，其中残差结构如图5所示。

Ghost-depthWise卷积模块主要应用在part2接入的残差结构中，Ghost-depthWise模块的核心思路是将传统的卷积操作分成两步进行，如图6所示，首先利用较少的计算量通过深度可分离卷积生成第一特征图(数量较小的特征图)，然后在此特征图的基础上，通过计算量较少的分组1x1卷积操作结合第一特征图生成第二特征图(新的相似特征图)，并将第一特征图和第二特征图中的信息进行组合，得到具有全部特征信息的特征图。

下面将以具体实例说明使用Ghost-depthwise卷积模块所节省的计算量：

假设输入featuremap为(c,h,w)＝(64,100,100)，输出featuremap为(c,h,w)＝(200,100,100)，使用kernel为3x3普通卷积计算方式的计算量为：

ConvFlops＝100*100*3*3*64*200＝1152000000

使用Ghost-depthWise模块对于同样输入输出的计算量为：

第一步使用kernel为3x3的depthWise卷积的计算量，输入和输出都为(c,h,w)＝(64,100,100)；

Ghost-ConvFlops_Step1＝100*100*3*3*64＝5760000

第二步使用分组kernel为1x1点卷积+kernel为3x3的depthwise卷积组合输出，然后将第二步输出与第一步输出进行channel方向连接；总输出为通道数200，第一步输出通道数为64，则剩余需要输出的通道数为136，则可使用两组3x3的depthwise卷积模块输出channel大小均为64，一组1x1点卷积模块输出channel大小为8；

Ghost-ConvFlops_Step2_1＝100*100*3*3*64＝5760000

Ghost-ConvFlops_Step2_2＝100*100*3*3*64＝5760000

Ghost-ConvFlops_Step2_3＝100*100*1*1*64*8＝5120000

总计算量为：

Ghost-ConvFlops＝Ghost-ConvFlops_Step1+Ghost-ConvFlops_Step2_(1,2,3)＝22400000；

则加速比为Ration＝ConvFlops/Ghost-ConvFlops≈50:1。

由此可见使用本发明提出的Ghost-depthWise卷积模块能够超大幅度降低网络模型参数量，并提升模型前向推理速度。

在SPP卷积模块中，如图7所示，将特征图在不同尺度上划分成不同的空间区域，在每个区域上计算特征向量，并将计算得到的所有特征向量组合起来，以将任意分辨率的特征图转换为设计好的与全连接层相同维度的特征向量，可解决卷积神经网络对图像重复特征提取的问题，大大提高了产生候选框的速度，且节省了计算成本。

另外，如图2所示，focus图像重排模块与第一个Ghost-depthWise卷积模块之间可以采用步长为1的卷积层进行连接；相邻两个Ghost-depthWise卷积模块之间可以采用步长为2的卷积层进行连接，使其完成下采样的操作，逐步降低整体计算量；最后一个Ghost-depthWise卷积模块与SPP卷积模块之间可以采用步长为2的卷积层进行连接。Ghost-depthWise卷积模块的通道数目沿图像输入至输出的方向为递增模式。

在具体实施时，设计特征检测模块时，采用如图8所示的FPN网络和PAN网络进行组合，具体使用几层金字塔进行融合，可根据平台的算力与要求的检测精度(即目标检测的大小范围)进行调整。对于FPN结构这种特征金字塔网络来说，其特征图的大小是不同的尺度，本发明可以对不同的特征进行融合，但由于特征图尺寸的不同，特征金字塔底部的特征无法与顶部的特征进行融合。将PAN结构接入FPN结构之后，就能起到路径聚合的作用，使得底部精细的特征比较容易传递到上层网络，在相同尺度上进行融合。这样结合操作，FPN层自顶向下传达强语义特征，而PAN则自底向上传达强定位特征，极大地丰富了特征的表征内容，提升了检测的性能。

最后，将特征融合后的检测结果经过卷积层和维度转置操作，输出各个锚定框上的分类和位置预测结果。当类别为N类时，每个锚定框上的分类预测结果会输出N+1个值，N个数值分别表示该锚定框在各个类别上的置信度，额外1个数值表示该类别是背景的置信度。每个锚定框上的位置预测结果使用4个值表示，[priors_center_x,priors_center_y,priors_h,priors_w]分别表示该锚定框中心点坐标和长宽，另外每个预测框会使用4个补偿参数对锚定框进行校正，记为：[center_x_offset,center_y_offset,h_offset,w_offset]，分别表示在锚定框中心点坐标位置上的偏移量和锚定框长宽上的偏移量。需要经过如下转换才能得到于原图的[center_x,center_y,h,w]形式标记框：

center_x＝center_x_offset×center_variance*priors_center_x+priors_center_x；

center_y＝center_y_offset×center_variance*priors_center_y+priors_center_y；

h＝exp(h_offset×size_variance*priors_h)×priors_h；

w＝exp(w_offset×size_variance*priors_w)×priors_w；

其中，priors_center_x、priors_center_x、priors_h、priors_w分别表示锚定框的中心点坐标和长宽，center_variance和size_variance为表示尺度变换的定值，通常设定为0.1和0.2，exp()为自然数e的指数函数。

由于在目标检测过程中，目标附近的锚定框预测回归结果通常会与其他锚定框存在包含和交叉等情况，在具体实施时，在本发明实施例提供的上述红外图像目标检测方法中，在进行目标检测之后，可以使用非极大值抑制约束(Non Maximum Suppression，NMS)对红外图像目标检测网络输出的目标检测结果进行筛选，以抑制那些置信度较低的锚定框预测回归结果，从而给出最终的红外目标检测结果。需要说明的是，在进行NMS抑制过程前，首先通过概率阈值筛选掉所有置信度过低的锚定框预测回归结果，概率阈值设定为0.2-0.5之间；然后将相对于锚定框的回归定位预测结果转换为相对于原图的标记框表达方式，再进行抑制过程。在NMS算法中，交并比阈值设置为0.2-0.6之间。NMS算法流程图可以包括：第一步是建造一个存放待处理候选框的集合H，初始化为包含全部N个框，并建造一个存放最优框的集合M，初始化为空集；第二步是将所有集合H中的框进行排序，选出分数最高的框m，从集合H移到集合M；第三步是遍历集合H中的框，分别与框m计算交并比(Interection-over-union，IoU)，如果高于阈值，则认为此框与m重叠，将此框从集合H中去除；第四步是回到第二步进行迭代，直到集合H为空，集合M中的框为所需。

在具体实施时，在本发明实施例提供的上述红外图像目标检测方法中，步骤S103是将搭建好的轻量级红外人测目标检测网络模型在预先准备好的训练数据集上进行训练，直到损失函数收敛，完成网络训练。在训练红外图像目标检测网络时，回归定位预测可以选择softmax损失函数，分类预测可以选择交叉熵损失函数。

在具体实施时，在本发明实施例提供的上述红外图像目标检测方法中，步骤S104对训练完成的红外图像目标检测网络进行通道剪枝并重新训练，具体可以包括：统计训练完成的红外图像目标检测网络的目标特征提取主干网络中各卷积层的通道(channel)方向上的内核(kernel)权重值之和；根据权重值之和的大小和各卷积层设置的裁剪比例，对相应的卷积层进行裁剪；其中，focus图像重排模块与第一个Ghost-depthWise卷积模块之间的卷积层以及FPN网络连接的卷积层不进行裁剪；将已发生过裁剪的卷积层使用未裁剪的权重作为红外图像目标检测网络的初始化参数，未发生过任何裁剪的卷积层在训练过程中权重不更新，对红外图像目标检测网络进行重新训练。

需要了解的是，虽然使用Ghost-depthWise模块能够大幅度降低网络模型参数，但普通卷积层相对于红外图像检测时仍然有大量冗余特征图的问题，对于实时性要求较高的嵌入式平台仍然能继续对模型进行压缩。对训练完成的网络，统计红外人车特征提取主干网络中各卷积层的权重值之和大小，根据每层设置的通道缩放因子，删除权重之和较小的通道，由于硬件优化的原因，删除的通道数需为2的倍数，网络从输入到检测结果输出过程，每个卷积层裁剪的比例应该逐渐增大，比如需要裁剪的第一个卷积层比例为1/32，第二个可以设置为1/16，第三个可以设置为1/8，以此类推，当然也可以把所有的卷积层裁剪比例设置为相同数值，经验证靠近输入的卷积层不适合裁剪的比例过大。由于focus图像重排模块与第一个Ghost-depthWise卷积模块之间的卷积层(即第一层卷积)为局部纹理特征信息，不对其进行裁切，为了保证目标检测层的结构不发生改变，FPN所连接的卷积层也不进行裁剪，只对中间层进行裁剪，裁剪通道的过程中只改变通道数量，维持了卷积层的主体结构，此过程几乎不影响网络的泛化性能。

假设某卷积层的输出channel为128，中间计算使用kernel为3x3的普通卷积方式，则kernel总个数为128个，每个kernel的大小为3*3*64，具体的裁剪过程可以包括：首先统计128个kernel权重数值之和，然后对其从小到大排序；若该层裁剪比例为1/16，则找出前8个权重对应的kernel删除，其他kernel权重保持不变；按照该方式该层输出channel变为120，则以该层作为输入的下一层需要删除对应的channel，同时删除该channel方向对应的kernel权重。如图9所示，整体通道剪枝深色为要删除的kernel和通道，浅色为保留下的权重参数。

接下来，已发生过裁剪的卷积层使用未裁剪的通道权重作为网络的初始化参数，未发生过任何裁剪的卷积层在训练过程中权重不更新，对网络进行重新训练，直至收敛，使得最后网络模型检测效果接近于未裁剪的网络模型精度。

基于同一发明构思，本发明实施例还提供了一种红外图像目标检测装置，由于该装置解决问题的原理与前述一种红外图像目标检测方法相似，因此该装置的实施可以参见红外图像目标检测方法的实施，重复之处不再赘述。

在具体实施时，本发明实施例提供的红外图像目标检测装置，如图2所示，具体包括：

训练集生成单元11，用于建立红外图像数据集，并进行数据增强预处理，生成训练样本集；

网络构建单元12，用于根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP卷积模块进行构建；红外图像目标检测网络的多尺度目标检测层采用由FPN网络和PAN网络组合的金字塔结构进行构建；

网络训练单元13，用于使用训练样本集对构建的红外图像目标检测网络进行训练；还用于对训练完成的红外图像目标检测网络进行通道剪枝并重新训练；

网络转换单元14，用于按照目标平台要求，使用嵌入式平台AI模块转换工具链对重新训练完成的红外图像目标检测网络进行转换。

在本发明实施例提供的上述红外图像目标检测装置中，可以通过上述四个单元的相互作用，可以避免使用复杂的算子计算，舍弃冗余的特征信息，极大丰富特征的表征内容，提升检测性能，不存在模组转换问题，整个网络模型小、计算速度快、通用性强，满足嵌入式平台业务的需求，易移植到低端AI芯片，具有较高的检测精度和运算速度，能够支持目前市场上的主流应用平台，有应用潜力。

关于上述各个单元更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应地，本发明实施例还公开了一种红外图像目标检测设备，包括处理器和存储器；其中，处理器执行存储器中存储的计算机程序时实现前述实施例公开的红外图像目标检测方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步地，本发明还公开了一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现前述公开的红外图像目标检测方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本发明实施例提供的一种红外图像目标检测方法，包括：建立红外图像数据集，并进行数据增强预处理，生成训练样本集；根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP卷积模块进行构建；红外图像目标检测网络的多尺度目标检测层采用由FPN网络和PAN网络组合的金字塔结构进行构建；使用训练样本集对构建的红外图像目标检测网络进行训练；对训练完成的红外图像目标检测网络进行通道剪枝并重新训练；按照目标平台要求，使用嵌入式平台AI模块转换工具链对重新训练完成的红外图像目标检测网络进行转换。上述方法中所构建的红外图像目标检测网络的主干网络由focus图像重排模块、Ghost-depthWise卷积模块结合SPP卷积模块组成，多尺度目标检测层由FPN网络结合PAN网络组成，又使用通道剪枝的方法对该网络做进一步压缩，可以避免使用复杂的算子计算，舍弃冗余的特征信息，极大丰富特征的表征内容，提升检测性能，并且该网络根据对应嵌入式平台进行设计，网络所用算子均为平台所支持类型，不存在模组转换问题，整个网络模型小、计算速度快、通用性强，满足嵌入式平台业务的需求，易移植到低端AI芯片，具有较高的检测精度和运算速度，能够支持目前市场上的主流应用平台，有应用潜力。此外，本发明还针对红外图像目标检测方法提供了相应的装置、设备及计算机可读存储介质，进一步使得上述方法更具有实用性，该装置、设备及计算机可读存储介质具有相应的优点。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的红外图像目标检测方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种红外图像目标检测方法，其特征在于，包括：

根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；所述红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP卷积模块进行构建；所述红外图像目标检测网络的多尺度目标检测层采用由FPN网络和PAN网络组合的金字塔结构进行构建；所述focus图像重排模块利用focus结构对图像进行切片操作来扩展图像的通道数目；所述Ghost-depthWise卷积模块通过深度可分离卷积生成第一特征图，通过分组1x1卷积操作结合所述第一特征图生成第二特征图，并将所述第一特征图和所述第二特征图中的信息进行组合，得到具有全部特征信息的特征图；所述SPP卷积模块在不同尺度上将特征图划分成不同的空间区域，在每个区域上计算特征向量，并将计算得到的所有特征向量组合起来，以将任意分辨率的特征图转换为与全连接层相同维度的特征向量；所述focus图像重排模块与第一个所述Ghost-depthWise卷积模块之间采用步长为1的卷积层进行连接；相邻两个所述Ghost-depthWise卷积模块之间采用步长为2的卷积层进行连接；最后一个Ghost-depthWise卷积模块与所述SPP卷积模块之间采用步长为2的卷积层进行连接；所述Ghost-depthWise卷积模块的通道数目沿图像输入至输出的方向为递增模式；

2.根据权利要求1所述的红外图像目标检测方法，其特征在于，在所述建立红外图像数据集之后，还包括：

3.根据权利要求2所述的红外图像目标检测方法，其特征在于，所述进行数据增强预处理，包括：

将其余三幅图像等比例缩放至底版图像大小；

对粘贴的目标所标注的矩形框的坐标位置进行相应的调整。

4.根据权利要求3所述的红外图像目标检测方法，其特征在于，在进行目标检测之后，使用非极大值抑制约束对所述红外图像目标检测网络输出的目标检测结果进行筛选。

5.根据权利要求4所述的红外图像目标检测方法，其特征在于，在训练所述红外图像目标检测网络时，回归定位预测选择softmax损失函数，分类预测选择交叉熵损失函数。

6.根据权利要求5所述的红外图像目标检测方法，其特征在于，所述对训练完成的所述红外图像目标检测网络进行通道剪枝并重新训练，包括：

7.一种红外图像目标检测装置，其特征在于，包括：

网络构建单元，用于根据嵌入式平台所支持的算子与所提供的算力，构建红外图像目标检测网络；所述红外图像目标检测网络的目标特征提取主干网络采用1个focus图像重排模块、多个带有残差结构的Ghost-depthWise卷积模块和1个SPP卷积模块进行构建；所述红外图像目标检测网络的多尺度目标检测层采用由FPN网络和PAN网络组合的金字塔结构进行构建；所述focus图像重排模块利用focus结构对图像进行切片操作来扩展图像的通道数目；所述Ghost-depthWise卷积模块通过深度可分离卷积生成第一特征图，通过分组1x1卷积操作结合所述第一特征图生成第二特征图，并将所述第一特征图和所述第二特征图中的信息进行组合，得到具有全部特征信息的特征图；所述SPP卷积模块在不同尺度上将特征图划分成不同的空间区域，在每个区域上计算特征向量，并将计算得到的所有特征向量组合起来，以将任意分辨率的特征图转换为与全连接层相同维度的特征向量；所述focus图像重排模块与第一个所述Ghost-depthWise卷积模块之间采用步长为1的卷积层进行连接；相邻两个所述Ghost-depthWise卷积模块之间采用步长为2的卷积层进行连接；最后一个Ghost-depthWise卷积模块与所述SPP卷积模块之间采用步长为2的卷积层进行连接；所述Ghost-depthWise卷积模块的通道数目沿图像输入至输出的方向为递增模式；

8.一种红外图像目标检测设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述的红外图像目标检测方法。

9.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的红外图像目标检测方法。