CN115019096A

CN115019096A - 一种基于动态神经网络的武装人员装备检测方法和***

Info

Publication number: CN115019096A
Application number: CN202210642402.6A
Authority: CN
Inventors: 赵小川; 董忆雪; 王子彻; 樊迪; 徐凯; 邵佳星; 何云峰
Original assignee: China North Computer Application Technology Research Institute
Current assignee: China North Computer Application Technology Research Institute
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-06

Abstract

一种基于动态神经网络的武装人员装备检测方法和***，方法包括以下步骤：采用可变焦的高分辨率相机采集不同距离下的武装人员图像，对各图像进行人员和装备标注，形成装备检测数据集；构建动态神经网络模型，所述动态神经网络模型包括第一子网络和第二子网络，所述第一子网络用于检测图像中的人类；当所述第一子网络检测图像中包含人类时，提取人类ROI传输至第二子网络；所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测；基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型；将待检测图像输入所述武装人员装备检测模型，得到待检测图像的武装人员装备检测结果。

Description

一种基于动态神经网络的武装人员装备检测方法和***

技术领域

本发明涉及武装人员装备检测技术领域，尤其涉及一种基于动态神经网络的武装人员装备检测方法和***。

背景技术

在实际的侦察工作中，武装人员身上携带的装备较小，在1000 米的远距离范围内更难以辨别，需要加载结构复杂的深度网络才能实现准确的识别。如何高效地采用深度网络进行目标识别是难点之一。

在神经网络中，低分辨率的小尺度特征往往要在深层级才能提取到，这些信息具有更多的语义信息，更适合进行识别工作。在传统的深度学习方法中，往往将目标无差别地输入到网络中进行前向传播，最后输出结果。然而，对于一些在近距离采集到的高分辨率大尺寸目标，利用浅层特征便可以轻易地识别出来，将这些目标输入到深层级往往会造成算力的冗余，影响识别算法的效率。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于动态神经网络的武装人员装备检测方法和***，用以解决现有深度网络检测效率低的问题。

一方面，本发明实施例提供了一种基于动态神经网络的武装人员装备检测方法，包括以下步骤：

采用可变焦的高分辨率相机采集不同距离下的武装人员图像，对各图像进行人员和装备标注，形成装备检测数据集；

构建动态神经网络模型，所述动态神经网络模型包括第一子网络和第二子网络，所述第一子网络用于检测图像中的人类；当所述第一子网络检测图像中包含人类时，提取人类ROI传输至第二子网络；所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测；基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型；

将待检测图像输入所述武装人员装备检测模型，得到待检测图像的武装人员装备检测结果。

基于上述技术方案的进一步改进，所述第二子网络包括主干网络单元、Neck网络单元和预测单元；所述主干网络单元用于提取不同尺度的特征图；所述Neck网络用于对主干网络单元提取的不同尺度的特征图进行上采样和特征融合，获得不同尺度的张量数据；所述预测单元包括多个浅层分类器，用于根据不同尺度的张量数据进行目标检测；

所述Neck网络单元中包括多级CSP和CBL组合块，在所述不同级的CSP和CBL组合块后连接浅层分类器，所述浅层分类器用于根据当前尺度的张量数据进行目标检测。

进一步地，所述浅层分类器包括依次连接的卷积层、concat层和 sigmoid层；所述卷积层用于提取图像特征，所述concat层用于对特征进行拼接，所述sigmoid层用于进行分类；不同层级的浅层分类器的卷积核大小和个数不同。

进一步地，对各图像进行人员和装备标注，形成装备检测数据集，包括：

采用标注框对武装人员图像中的人员和装备进行标注；

对标注后的图像采用标注框尺度扭曲、标注框镜像翻转、图像随机缩放、图像随机裁剪和/或图像随机排布进行数据集增强，得到增强后的数据集，将增强前的数据集与增强后的数据集作为装备检测数据集。

进一步地，所述第二子网络的预测框损失函数为：

其中，dis_2表示预测框与标注框的中心点的欧氏距离，dis_C表示预测框与标注框的最小外接矩形的对角线距离，IOU表示预测框和标注框的交并比。

进一步地，在基于所述武装人员图像构建装备检测数据集之后，构建动态神经网络模型之前，还包括：根据所述数据集中的所有图像的标注框，确定所述动态神经网络模型的初始锚框。

进一步地，根据所述数据集中的所有图像的标注框，确定所述动态神经网络模型的初始锚框，包括：

将所述数据集中各图像等比例缩放至指定大小，得到缩放后的标注框；

对缩放后的标注框进行聚类，采用遗传算法对每类标注框进行变异，基于预测正确率选择最优标注框作为初始锚框。

进一步地，基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型之后，还包括采用以下步骤对所述武装人员装备检测模型进行剪枝：

对模型各通道进行稀疏化处理计算稀疏化处理后每个通道的尺度因子；

若尺度因子小于预设的阈值，则将该通道剪除；否则，保留该通道；

对剪枝后的模型进行重新训练，得到训练好的武装人员装备检测模型。

另一方面，本发明实施例提供了一种基于动态神经网络的武装人员装备检测***，包括以下模块：

数据集构建模块，用于采用可变焦的高分辨率相机采集不同距离下的武装人员图像，对各图像进行人员和装备标注，形成装备检测数据集；

模型训练模块，用于构建动态神经网络模型，所述动态神经网络模型包括第一子网络和第二子网络，所述第一子网络用于检测图像中的人类；当所述第一子网络检测图像中包含人类时，提取人类ROI传输至第二子网络；所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测；基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型；

装备检测模块，用于将待检测图像输入所述武装人员装备检测模型，得到待检测图像的武装人员装备检测结果。

进一步地，所述第二子网络包括主干网络单元、Neck网络单元和预测单元；所述主干网络单元用于提取不同尺度的特征图；所述Neck网络用于对主干网络单元提取的不同尺度的特征图进行上采样和特征融合，获得不同尺度的张量数据；所述预测单元包括多个浅层分类器，用于根据不同尺度的张量数据进行目标检测；

与现有技术相比，本发明通过采用动态神经网络模型构建武装人员装备检测模型，对于不同分辨率的图像，可以采用不同的网络深度进行识别，从而减少冗余计算，提高检测效率。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例基于动态神经网络的武装人员装备检测方法的流程图；

图2为本发明实施例基于动态神经网络的武装人员装备检测***的框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个实施例公开了一种基于动态神经网络的武装人员装备检测方法，如图1所示，包括以下步骤：

S1、采用可变焦的高分辨率相机采集不同距离下的武装人员图像，对各图像进行人员和装备标注，形成装备检测数据集；

S2、构建动态神经网络模型，所述动态神经网络模型包括第一子网络和第二子网络，所述第一子网络用于检测图像中的人类；当所述第一子网络检测图像中包含人类时，提取人类ROI传输至第二子网络；所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测；基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型；

S3、将待检测图像输入所述武装人员装备检测模型，得到待检测图像的武装人员装备检测结果。

通过采用动态神经网络模型构建武装人员装备检测模型，对于不同分辨率的图像，可以采用不同的网络深度进行识别，从而减少冗余计算，提高检测效率。

在实际的侦察工作中，武装人员身上携带的装备较小，在远距离范围内难以辨别，为了准确识别不同距离的装备，步骤S1中，采用可变焦的高分辨率相机采集不同距离下的武装人员图像，以构建训练数据集。

对于采集得到的各图像进行人员和装备标注，形成装备检测数据集，具体包括：

S11、采用标注框对武装人员图像中的人员和装备进行标注。

具体的，对图像中的人员和装备进行标注就是采用标注框，标注出图像中人员和装备的位置，并标注出对应的装备的类型。

S12、对标注后的图像采用标注框尺度扭曲、标注框镜像翻转、图像随机缩放、图像随机裁剪和/或图像随机排布进行数据集增强，得到增强后的数据集，将增强前的数据集与增强后的数据集作为装备检测数据集。

为了增大数据集的规模，提高模型的检测能力，对于标注后的图像进行数据增强。具体的，数据增强包括对标注后的图像采用标注框尺度扭曲、标注框镜像翻转、图像随机缩放、图像随机裁剪和/或图像随机排布进行数据集增强，得到增强后的数据集。

实施时，尺度扭曲方法为：标注框的坐标原点不变，将标注框内图像进行相应的尺度变换后覆盖在原来的目标位置，标注框的坐标随尺度变换而变换，得到新的图像及对应的标注信息。

实施时，镜像翻转方法为：标注框的坐标原点不变，将标注框内图像进行相应的翻转变换后覆盖在原来的目标位置，标注框的坐标不变，得到新的图像及对应的标注信息。

实施时，武装人员装备包括：头套、***(包含步枪、***及火箭筒)、***、刀具，再加上人类本身，一共是5类目标。最终检测数据集包含人、头套、***、刀具、***5类目标；数据集包含实景图像共 17000余张。

对于自行构建的数据集，需要确定检测模型初始锚框的大小。因此，在基于所述武装人员图像构建装备检测数据集之后，构建动态神经网络模型之前，还包括：根据所述数据集中的所有图像的标注框，确定所述动态神经网络模型的初始锚框。

具体的，根据所述数据集中的所有图像的标注框，确定所述动态神经网络模型的初始锚框，包括：

S13、将所述数据集中各图像等比例缩放至指定大小，得到缩放后的标注框；

示例性的，自建数据集所有图像的尺寸为1920×1080；将每张图片中宽与高的最大值等比例缩放到指定大小，例如指定大小为1080×1080，较小的边也相应缩放；将缩放后图像对应的标注框从相对坐标改为绝对坐标，计算缩放后标注框的大小，即标注框的长和宽。

为了筛除无效数据，对更改后的标注框进行筛选，保留所有宽与高都不小于2个像素的标注框，其余删除。

S14、对缩放后的标注框进行聚类，采用遗传算法对每类标注框进行变异，基于预测正确率选择最优标注框作为初始锚框。

对于缩放后的所有标注框进行聚类，实施时，可采用k-means聚类算法对标注框进行聚类，得到k类不同的标注框。

在目标识别任务中，由于大的特征图包含更多小目标信息，往往希望在大的特征图中检测小目标。因此，大特征图上的锚框通常设置为小数值，而小特征图的锚框设置为较大的数值。实施时，若动态神经网络中包含四级分类器，则需设置4组初始化锚框，每组锚框包含3对值。因此，在k-means聚类算法中，设置k＝12。

对于得到的每类标注框，采用遗传算法进行变异，基于适应度函数选择其中最优的作为该类对应的初始锚框。具体的，对标注框进行随机变异，即对标注框的长和宽进行随机变异生成该类对应的一簇锚框。对于生成的一簇锚框，计算每个锚框的预测正确率，选择预测正确率最高的锚框为该类对应的初始锚框。

通过以下公式计算每个锚框的预测正确率：

其中p_i,j表示第i类的第j个锚框的预测正确率，n_i,j表示第i类第j个锚框与第i类标注框的交并比大于阈值的个数，m_i表示第i类标注框的个数。

具体的，步骤S2中构建的动态神经网络模型包括第一子网络和第二子网络，所述第一子网络用于检测图像中的人类；当所述第一子网络检测图像中包含人类时，提取人类ROI传输至第二子网络；所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测；基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型。

实施时，第一子网络可采用了YOLOv3-tiny的结构，该网络具有轻量化、易部署且精度高的特点。适合进行简单的人员检测任务。若第一子网络检测到图像中包含人类，则裁剪出人类ROI，即人类感兴趣区域，人类ROI传输至第二子网络，否则停止前向传播，从而提高模型的检测效率。

第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测，即根据从第一子网络中接收到的人类ROI的分辨率，在不同的网络深度处进行装备检测。

实施时，第二子网络可采用改进的yolov5l模型。第二子网络包括主干网络单元、Neck网络单元和预测单元；所述主干网络单元用于提取人类ROI不同尺度的特征图；所述Neck网络用于对主干网络单元提取的不同尺度的特征图进行上采样和特征融合，获得不同尺度的张量数据；所述预测单元包括多个浅层分类器，用于根据不同尺度的张量数据进行目标检测；

为了便于针对不同分辨率的样本，采用不同的网络深度(对应不同级别的CSP和CBL组合块)处的浅层分类器进行识别检测，从而提高模型效率，减少算力冗余。具体的，Neck网络单元中包括多级CSP和CBL 组合块，级数越高，代表网络深度越深，通过将检测单元的多个分类器连接在不同级的CSP和CBL组合块之后，能够针对不同分辨率的样本进行快速识别检测，大大减少了运算量，节约了运算资源。

其中，CBL块包括全连接层、批量归一化层和Leaky Relu层。CSP 块为CSP2_x结构块，用于将输入分为两个分支，一个分支先通过CBL，再经过x个残差结构，再进行一次卷积；另一个分支直接进行卷积；然后将两个分支进行concat拼接，再经过BN层和激活层后输出。

示例性的，对Neck网络单元的倒数4级CSP和CBL组合块后连接分类器，为了便于描述，分别表示为第一浅层分类器、第二浅层分类器、第三浅层分类器和第四浅层分类器。每级CSP和CBL组合块的输出分为两路，一路连接该层级对应的浅层分类器，一路依次经过CBL层和concat 层继续前向传播，进入下一级CSP和CBL组合块。对CSP和CBL组合块的输出首先进行分辨率判断，若分辨率在预设的范围内，则将特征图输入当前层级对应的浅层分类器进行检测识别，停止前向传播，否则，将特征图继续前向传播，进一步提取深层特征。例如在倒数第4级CSP 和CBL组合块后首先判断输入图像的分辨率，若分辨率大于等于400，则将特征图输入第一浅层分类器进行检测识别；若图像分辨率小于400，则继续前向传播提取深层特征。在倒数第3级CSP和CBL组合块后首先判断输入图像的分辨率，若分辨率小于400并且大于等于200，则将特征图输入第二浅层分类器进行检测识别；否则，则继续前向传播提取深层特征。在倒数第2级CSP和CBL组合块后首先判断输入图像的分辨率，若分辨率小于200并且大于等于50，则将特征图输入第三浅层分类器进行检测识别；否则，则继续前向传播特征。在倒数第1级CSP和CBL组合块后则无需进行判断，直降将特征输入对应的分类器进行检测识别。通过在不同深度连接分类器，不同分辨率的样本将会在不同的深度早退，只有分辨率小于50的样本才会进入到网络深层进行计算。这大大提升了模型的运行效率，减少了算力的冗余。

具体的，浅层分类器包括依次连接的卷积层、concat层和sigmoid层；所述卷积层用于提取图像特征，所述concat层用于对特征进行拼接，所述sigmoid层用于进行分类；不同层级的浅层分类器的卷积核大小和个数不同。

实施时，第一浅层分类器的卷积层由128个卷积核组成，每个卷积核的大小为1，stride＝1。

第二浅层分类器的卷积层由128个卷积核组成，每个卷积核大小为3，stride＝2。

第三浅层分类器的卷积层由256个卷积核组成，每个卷积核大小为3， stride＝2。

第四浅层分类器的卷积层由384个卷积核组成，每个卷积核的大小为3，stride＝2。

实施时，浅层分类器的concat层用于将卷积层输出的特征与主干网络中某层输出的特征拼接，从而融合主干网络提取的特征和neck网络一区的特征，使分类更加准确。实施时，选择主干网络中输出特征维度与浅层分类器的卷积层输出特征维度相同的层，将其输出的特征与当前分类器的卷积层输出的特征拼接。

通过在不同深度的分类器中设置不同规模大小的卷积核，从而提取不同深度的特征，对于分辨率较高的图像，不需要提取深层特征即可准确进行检测识别，从而减少了运算量，提高了检测效率。

构建好动态神经网络模型后，基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型。具体的，在进行模型训练时，通过以下公式计算模型的检测框损失：

模型的分类损失则采用交叉熵损失函数：

其中，M代表类别的数量，例如识别四类装备，故M＝4。p_ic表示样本i属于类别c的置信度，y_ic为0-1变量，当样本i的真实类别为c时取 1，否则取0。N表示一个batch中样本的数量。

最终得到模型的整体损失函数为：

根据模型的整体损失，进行反向传播，优化模型参数，从而得到训练好的武装人员装备检测模型。

训练后的装备识别模型内存在大量无效、低效冗余结构和参数，进一步提高推理效率成为难题。剪枝正是提高推理效率的方法之一，它通过剪裁低效分支与参数可以高效生成规模更小、内存利用率更高、能耗更低、推断速度更快、推断准确率损失最小的模型。

具体的，基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型之后，还包括采用以下步骤对所述武装人员装备检测模型进行剪枝：

S21、对模型各通道进行稀疏化处理计算稀疏化处理后每个通道的尺度因子；

因为网络中不同的通道对模型识别的效果影响不同，稀疏化处理的目的在于将影响较小的通道的BN层的系数(也叫尺度因子)逼近于0，得到稀疏化的尺度因子。在训练时，对每个通道中BN层的尺度因子加入正则项，对于数值较小的尺度因子来说，在训练完以后会更接近于0。从而实现了稀疏化尺度因子的目的。

S22、若尺度因子小于预设的阈值，则将该通道剪除；否则，保留该通道。

示例性的，若裁剪百分比设置为了55％，即要剪去55％的通道数。根据百分比和模型中所有的尺度因子，确定阈值，将所有尺度因子小于阈值的通道剪去(即将其对应尺度因子设置为0)，从而对模型进行剪枝。

S23、对剪枝后的模型进行重新训练，得到训练好的武装人员装备检测模型。

进行剪枝后的模型由于通道数降低，模型参数减少，其识别精度肯定会有所下降。因此需要再进行训练对其进行微调，以弥补因剪枝而损失的精度。当精度达到预设值后，训练结束，得到剪枝后的武装人员装备检测模型。

本发明的一个实施例公开了一种基于动态神经网络的武装人员装备检测***，如图2所示，包括以下模块：

优选的，所述第二子网络包括主干网络单元、Neck网络单元和预测单元；所述主干网络单元用于提取不同尺度的特征图；所述Neck网络用于对主干网络单元提取的不同尺度的特征图进行上采样和特征融合，获得不同尺度的张量数据；所述预测单元包括多个浅层分类器，用于根据不同尺度的张量数据进行目标检测；

上述方法实施例和***实施例，基于相同的原理，其相关之处可相互借鉴，且能达到相同的技术效果。具体实施过程参见前述实施例，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于动态神经网络的武装人员装备检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的动态神经网络的武装人员装备检测方法，其特征在于，所述第二子网络包括主干网络单元、Neck网络单元和预测单元；所述主干网络单元用于提取不同尺度的特征图；所述Neck网络用于对主干网络单元提取的不同尺度的特征图进行上采样和特征融合，获得不同尺度的张量数据；所述预测单元包括多个浅层分类器，用于根据不同尺度的张量数据进行目标检测；

3.根据权利要求2所述的动态神经网络的武装人员装备检测方法，其特征在于，所述浅层分类器包括依次连接的卷积层、concat层和sigmoid层；所述卷积层用于提取图像特征，所述concat层用于对特征进行拼接，所述sigmoid层用于进行分类；不同层级的浅层分类器的卷积核大小和个数不同。

4.根据权利要求1所述的动态神经网络的武装人员装备检测方法，其特征在于，对各图像进行人员和装备标注，形成装备检测数据集，包括：

采用标注框对武装人员图像中的人员和装备进行标注；

5.根据权利要求4所述的动态神经网络的武装人员装备检测方法，其特征在于，所述第二子网络的预测框损失函数为：

6.根据权利要求1所述的动态神经网络的武装人员装备检测方法，其特征在于，在基于所述武装人员图像构建装备检测数据集之后，构建动态神经网络模型之前，还包括：根据所述数据集中的所有图像的标注框，确定所述动态神经网络模型的初始锚框。

7.根据权利要求6所述的动态神经网络的武装人员装备检测方法，其特征在于，根据所述数据集中的所有图像的标注框，确定所述动态神经网络模型的初始锚框，包括：

8.根据权利要求1所述的动态神经网络的武装人员装备检测方法，其特征在于，基于所述装备检测数据集训练所述动态神经网络模型，得到训练好的武装人员装备检测模型之后，还包括采用以下步骤对所述武装人员装备检测模型进行剪枝：

9.一种基于动态神经网络的武装人员装备检测***，其特征在于，包括以下模块：

10.根据权利要求1所述的动态神经网络的武装人员装备检测***，其特征在于，所述第二子网络包括主干网络单元、Neck网络单元和预测单元；所述主干网络单元用于提取不同尺度的特征图；所述Neck网络用于对主干网络单元提取的不同尺度的特征图进行上采样和特征融合，获得不同尺度的张量数据；所述预测单元包括多个浅层分类器，用于根据不同尺度的张量数据进行目标检测；