CN111046928A

CN111046928A - 定位精准的单阶段实时通用目标检测器及方法

Info

Publication number: CN111046928A
Application number: CN201911179354.6A
Authority: CN
Inventors: 沈耀; 龚桂; 过敏意; 陈�全; 姚斌
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-21
Anticipated expiration: 2039-11-27
Also published as: CN111046928B

Abstract

一种定位更精准的单阶段实时通用目标检测器及方法，包括：检测骨干网络模块、特征增强模块和回归框重叠度引导训练及推理模块，特征增强模块使各层特征语义以及局部信息更丰富，取得更好的预测结果；对于大量的重叠框，通过将分类置信度与回归框定位置信度相乘，对分类置信度高而回归不精确的框进行更多的衰减，尽可能保留更精准的预测框。同时重叠度引导的交叉熵损失在训练中提高分类回归任务的相关性，抑制低质量预测结果，提升检测效果。

Description

定位精准的单阶段实时通用目标检测器及方法

技术领域

本发明涉及的是一种目标检测领域的技术，具体是一种定位更精准的、精度更高的单阶段实时通用目标检测器及方法。

背景技术

目标检测是对于某些指定图像中存在的来自给定类别(如人类、汽车、自行车、狗和猫)的任何对象实例，返回其的空间位置和类别。作为图像理解和计算机视觉的基础，目标检测是解决更复杂或更高层次视觉任务的先决条件，能够广泛应用于人工智能和信息技术。现有的实时单阶段目标检测器虽然在速度上具有优势，但在骨干网络特征提取过程中，随着语义信息的逐层提取，局部细节信息逐渐丢失，导致网络中的深层特征虽然具有更多适用于大物体识别的语义信息但细节信息丢失过多不利于大物体定位，而浅层低级特征更局部化，特征语义信息不足不利于小物体分类，因此基础特征金字塔各层信息对后续分类回归任务并不充分，导致预测定位效果不佳；目标检测的后处理采用非最大抑制算法对预测框进行处理，防止预测结果包含重复框，在非最大抑制算法的过程中，保留分类置信度最高的框，去除与该框重叠度大于阈值的结果，但这会造成更精确的预测框因为分类置信度不是最高而被剔除，此外，由于训练标签提前决定，在训练中存在部分回归不好的正样本强制分类为前景，造成分类回归任务的不一致性，产生许多低质量回归框，导致预测效果不佳。

发明内容

本发明针对现有技术存在的上述不足，提出一种定位更精准的单阶段实时通用目标检测器及方法，能够在保证推理速度实时的条件下，提高模型的准确度。

本发明是通过以下技术方案实现的：

本发明涉及一种定位更精准的单阶段实时通用目标检测器，包括：检测骨干网络模块、特征增强模块和回归框重叠度引导训练及推理模块，其中：检测骨干网络模块产生合理感受野分布的基础特征金字塔。特征增强模块将原始特征进行增强，其基于分离残差思想，使用不同空洞大小的空洞卷积转换来获得更多更大尺度的感受野扩充，同时对各层特征缺失的信息进行补充。回归框重叠度引导的训练及推理模块设计了新的基于log函数的预测框重叠度回归损失以及基于重叠度引导的交叉熵分类损失，二者在训练阶段进行反向传播以更新梯度，并在推理阶段使用预测的回归框重叠度指导非最大抑制方法，从而以提升检测精度。

本发明涉及上述目标检测器的检测方法，其具体步骤如下：

1)训练网络；

1.1)输入批量图片进行预处理，具体包括：随机色彩空间变换、随机图片物体缩小、随机裁剪、随机方法缩放图片成输入尺寸、随机水平翻转、向量化、中心化和标准化；

1.2)将预处理后的图片输入检测骨干网络模块得到基础特征金字塔；

1.3)运用逐级感受野扩充单元对基础特征金字塔各层进行感受野范围扩大；

1.4)运用双向FPN补充步骤1.3)得到的特征所缺失的信息；

1.6)回归框重叠度引导的训练及推理模块计算训练损失并反向传播更新梯度；

2)优化推理；

2.1)输入测试图片并进行预处理，具体包括：缩放图片成输入尺寸、向量化、中心化和标准化；

2.2)将预处理后的图片传输至目标检测器中得到预测结果；

2.3)预测结果中的分类置信度与定位置信度相乘以指导非最大抑制算法去重。

技术效果

本发明在保证模型实时性的情况下提高预测结果的定位精度。与现有技术相比，本发明的特征增强模块使各层特征语义以及局部信息更丰富，取得更好的预测结果；对于大量的重叠框，通过将分类置信度与回归框定位置信度相乘，对分类置信度高而回归不精确的框进行更多的衰减，尽可能保留更精准的预测框，得到定位更佳的结果,同时通过重叠度引导分类训练，抑制低质量预测框提升检测效果。

与现有技术相比，在GTX 1080Ti的显卡环境以及320像素的图片输入下，本发明的检测器能以实时的速度推理，同时具备较高的检测精度。具体的，在MS COCO数据集上，本发明所提出的检测器能以40FPS获得33.8mAP。在Pascal VOC 2007数据集上，能以58FPS获得81.28mAP。兼顾速度与准确度，相比以其他检测方法有更好的折衷。

附图说明

图1为本实施例的示意图；

图2为检测骨干网络模块的结构示意图；

图3为逐级感受野扩充单元的结构示意图；

图4为双向FPN单元的结构示意图；

图5为回归框重叠度引导训练及推理模块的结构示意图；

图1中：检测骨干网络模块1、特征增强模块2、回归框重叠度引导训练及推理模块3、带有批归一化的VGG16网络101、额外层102、逐级感受野扩充单元201、双向FPN单元202。

具体实施方式

如图1所示，本实施例包括：检测骨干网络模块1、特征增强模块2和回归框重叠度引导训练及推理模块3，其中：检测骨干网络模块1产生基础特征金字塔。特征增强模块2将原始基础特征进行增强，其基于分离残差思想以及空洞卷积转换来获得更多尺度的感受野扩充，同时对各层特征缺失的信息进行补充。回归框重叠度引导训练及推理模块3设计了新的基于log函的预测框重叠度回归损失以及基于重叠度引导的交叉熵计算分类损失，再进行反向传播更新梯度提升检测效果，优化推理以提升检测速度。

所述的检测骨干网络模块1包括：带有批归一化的VGG16网络101和额外层102，其中：额外层102空洞大小满足与VGG16_BN同等的感受野扩充比例，使产生的基础特征金字塔感受野分布均匀。

所述的特征增强模块2包括：逐级感受野扩充单元201和双向FPN单元202，其中：逐级感受野扩充单元201基于分离残差结构设计，使用逐层的、不同空洞大小的空洞卷积将原始特征进行转换以获得更大更多尺度的感受野扩充，双向FPN单元202通过256维度构建两条信息流得到两个特征金字塔联合进行转换得到最终特征。

所述的回归框重叠度引导训练及推理模块3通过内置的回归框定位置信度预测分支并采用类别无关方法降低参数量以及速度开销、通过内置的重叠度引导的交叉熵损失以抑制低质量的预测框，采用更新的重叠度预测回归损失方法预测回归框的定位置信度。

本实施例涉及一种基于上述内容的目标检测器的检测方法，具体包括以下步骤：

实验环境：1)GTX 1080Ti。2)Pytorch 1.0.0。3)Cudnn 10。4)动量大小为0.9，的随机梯度下降算法。其中MS COCO数据集设置权重衰减为1e-4，Pascal VOC 2007数据集设置权重衰减为5e-4。5)批量大小设置为32。6)初始学习率设置为2e-3。其中MS COCO数据集学习率分别在第90，120个迭代衰减10倍，于第150个迭代结束。Pascal VOC 2007数据集学习率分别在第160，200个迭代衰减10倍，于第240个迭代结束.

步骤1)输入一个批量的训练图片

1.1)以0.5的概率对原始图片的亮度、对比度、色相、饱和度或通道进行随机改变；

1.2)以0.5的概率随机产生一个步骤1.1)图片1～4倍大小的均值模板，将原图放在模板的随机位置；

1.3)以0.5的概率将图片随机裁剪；

1.4)将图片随机缩放为320x320大小；

1.5)以0.5的概率将图片水平翻转；

1.6)将步骤1.5)产生的图片转换为高维向量并进行归一化、中心化和标准化。

步骤2)默认框设置为以原图的0.06、0.15、0.33、0.51、0.69、0.87和1.05比例进行密集平铺，将设置好的默认框分别与步骤1)操作结果的图片标签进行匹配，其中：正样本的匹配规则为与标签框重叠度大于0.4的默认框和与该标签框重叠度最高的默认框、负样本的匹配规则为与标签框重叠度小于0.4的默认框。

步骤3)将步骤1)产生的高维图片向量输入检测骨干网络模块1进行特征提取，如图2所示，检测骨干网络模块1产生基础特征金字塔，其中：浅层特征由小比例默认框负责匹配小物体，深层特征由大比例默认框负责匹配大物体；

步骤4)运用特征增强模块2对基础特征金字塔进行特征增强

4.1)对各层特征使用逐级感受野扩充单元201，如图3所示，运用1x1卷积对原始特征x做特征转换，分成4块，x1直接映射到最后特征y1，防止信息丢失；x2使用空洞大小为1的3x3卷积做转换提取得到y2；x3在与y2的和的基础上使用空洞大小为3的3x3卷积做特征提取得到y3；在x4与y3和的基础上做空洞大小为5的特征提取；使用1x1的卷积对扩充后的特征e做跨通道信息整合与降维；

4.2)对步骤4.1)产生的特征进行双向FPN操作以将各层特征不足的信息补充；

4.2.1)构建两条信息流，从e4特征向下引入普通的FPN构建语义信息流，得到s1、s2、s3和s4；

4.2.2)从浅层的带有批归一化的VGG C3-3层向上构建局部信息流得到l1、l2、l3、l4、l5和l6；

4.2.3)将s特征和l特征联合，使用3x3的卷积层进行特征转换得到最终的特征；

4.2.4)采用256维度构建信息流，使用无参的双线性差值做上采样、均值池化做下采样以近似保留各层特征，如图4所示；

4.2.5)生成512的维度特征以训练预测器；

步骤5)如图5所示，将步骤4)产生的最终特征传输至回归框重叠度引导训练及推理模块3并分别进行默认框偏移量预测、回归框分类置信度和回归框定位置信度预测，回归框定位置信度预测分支采用3x3的卷积，对于回归框偏移量预测损失采用balance l1损失，而对于回归框分类置信度，回归框定位置信度预测采用本发明设计的损失函数：R_IOUloss＝

和

其中：R_IOUloss表示定位置信度回归损失、CEJI表示联合定位置信度的交叉熵损失、IOU_tar表示回归结果与标签的真实重叠度。

步骤6)进行推理

6.1)输入一张原始图片；

6.2)对原始图片缩放为训练时的大小，转化成高维向量，并进行归一化、中心化及标准化；

6.3)将步骤6.2)的结果输入目标检测器中，得到预测结果；

6.4)将定位置信度与分类置信度相乘用以指导非最大抑制算法进行结果去重。

本实施例分别在MS COCO以及Pascal VOC 2007公开数据集上进行测试，如表1至表3所示，分别显示了本实施例提出的模型有效性以及各个子模块的有效性。

表1

表2

图3

与现有技术相比本发明训练稳定、易收敛，不需要使用warm up策略；在没有使用大骨干网络的情况下，极大提高了特征信息的丰富度及预测的准确性；虽然集成了多个模块，但在1080Ti的显卡环境下，仍然能保持实时的速度，在模型速度及准确度上有着更好的折中，利于生产环境。对于回归框定位置信度预测，本实施例设计的损失相对于Sigmoid联合MSE损失能够保证损失函数的凸性，更易优化，防止局部最优，并且梯度不会过小。对于回归框分类置信度，本实施例设计的损失联合了预测框的预测结果，对于低质量结果(重叠度<0.5)的样本进行忽视，保证分类回归任务的一致性。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于单阶段架构的实时通用目标检测器，其特征在于，包括：检测骨干网络模块、特征增强模块和回归框重叠度引导训练及推理模块，其中：检测骨干网络模块产生合理感受野分布的基础特征金字塔，特征增强模块将原始特征进行增强，其基于分离残差思想，使用不同空洞大小的空洞卷积转换来获得更多更大尺度的感受野扩充，同时对各层特征缺失的信息进行补充，回归框重叠度引导的训练及推理模块设计了新的基于log函数的预测框重叠度回归损失以及基于重叠度引导的交叉熵分类损失，二者在训练阶段进行反向传播以更新梯度，并在推理阶段使用预测的回归框重叠度指导非最大抑制方法，从而以提升检测精度。

2.根据权利要求1所述的目标检测器，其特征是，所述的检测骨干网络模块包括：带有批归一化的VGG16和额外层，其中：额外层空洞大小合理，使产生的基础特征金字塔感受野分布均匀。

3.根据权利要求1所述的目标检测器，其特征是，所述的特征增强模块包括：逐级感受野扩充单元和双向FPN单元，其中：逐级感受野扩充单元基于分离残差思想，使用不同空洞大小的空洞卷积转换来获得更多更大尺度的感受野扩充，双向FPN单元通过256维度构建两条信息流得到两个特征金字塔联合进行转换得到最终特征。

4.根据权利要求1所述的目标检测器，其特征是，所述的回归框重叠度引导训练及推理模块通过内置的回归框定位置信度预测分支并采用类别无关方法降低参数量以及速度开销、通过内置的重叠度引导的交叉熵损失以抑制低质量的预测框，采用更新的重叠度预测回归损失方法预测回归框的定位置信度。

5.一种基于上述任一权利要求所述目标检测器的检测方法，其特征在于，包括以下步骤：

1)训练网络；

1.1)输入批量图片进行预处理，具体包括：随机色彩空间变换、随机图片物体缩小、随机裁剪、随机方法缩放图片成输入尺寸、随机水平翻转、向量化、中心化和标准化；；

1.4)运用双向FPN补充步骤1.3)得到的特征缺失信息；

1.5)运用回归框重叠度引导训练及推理模块对各层特征进行计算损失并反向传播更新梯度；

2)优化推理；

2.2)将预处理后的图片传输至目标检测器中得到预测结果；

2.3)预测结果中的分类置信度与定位置信度相乘以对非最大抑制算法去重。

6.根据权利要求5所述的方法，其特征是，所述的感受野范围扩大具体是指：运用1x1卷积对原始特征x做特征转换，分成4块，x1直接映射到最后特征y1，防止信息丢失；x2使用空洞大小为1的3x3卷积做转换提取得到y2；x3在与y2的和的基础上使用空洞大小为3的3x3卷积做特征提取得到y3；在x4与y3和的基础上做空洞大小为5的特征提取；使用1x1的卷积对扩充后的特征e做跨通道信息整合与降维。

7.根据权利要求5所述的方法，其特征是，所述的双向FPN是指：构建两条信息流，从e4特征向下引入普通的FPN构建语义信息流，得到s1、s2、s3和s4；从浅层的带有批归一化的VGG C3-3层向上构建局部信息流得到l1、l2、l3、l4、l5和l6；将s特征和l特征联合，使用3x3的卷积层进行特征转换得到最终的特征；采用256维度构建信息流，使用无参的双线性差值做上采样、均值池化做下采样以近似保留各层特征，生成512的维度特征以训练预测器。

8.根据权利要求5所述的方法，其特征是，步骤1.5)中计算损失所采用的损失函数为：

和