CN110245675B

CN110245675B - 一种基于毫米波图像人体上下文信息的危险物体检测方法

Info

Publication number: CN110245675B
Application number: CN201910264671.1A
Authority: CN
Inventors: 张铂; 王斌; 吴晓峰; 张立明
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2023-02-10
Anticipated expiration: 2039-04-03
Also published as: CN110245675A

Abstract

本发明属于图像处理技术领域，具体为一种基于毫米波图像人体上下文信息的危险物体检测方法。本发明首先利用卷积神经网络对输入的毫米波图像进行下采样操作，在高层特征空间中使用自顶而上结构来恢复人体上下文信息，将下采样阶段获得到的人体携带物与自顶而下结构获得的人体上下文信息相融合，共同预测前景目标；另外，针对初始化的候选框不能有效地匹配地面真实的问题，本发明采用辅助监督函数来给予初始化候选框坐标回归，在标准测试集与实际测试场景中提升模型的检出率。本发明可以实时、自动识别毫米波图像中的危险物体，大大提升安检、安防的效率。

Description

一种基于毫米波图像人体上下文信息的危险物体检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种人体携带危险物检测方法。

背景技术

随着恐怖活动的升级，在机场、海关、人群密集区的安防***的设计已经提上日程。传统安检安防***主要包括针对人体的金属探测器和针对人体携带物的X射线***。这种人、物分离的安检***已经普遍地应用在各种安检场景，并且有效地提高了机场、海关、人群密集区等重要场所的安防能力。然而上述传统安检安防***仍然存在一些缺陷。一方面，针对人体的金属探测器只能检测金属违禁物，例如，枪、刀；然而对于非金属类的危险物体，例如***物、危险液体、陶瓷刀等较难检测[1]。另一方面，人、物分离的安检***要求分别对人体和人体携带物采用不同的成像原理进行检查，在机场对人体的检查耗时要高于对人体携带物的检查耗时，因此，人、物分离的安检***会受到其中一个子***的耗时影响。

毫米波成像***[2]可以有效地解决上述问题。其能够穿透衣物和绝缘体的遮挡，并且是非电离辐射的，因此对人体是无害的。毫米波近距离成像***按照工作方式可以分为被动式毫米波成像(PMMW)和主动式毫米波成像(AMMW)。前者利用毫米波辐射计，采集被测目标的热辐射或者散射分布特性后生成图像。而后者利用发射一定功率的不同波段的毫米波信号来照射被测对象，并且利用接收机采集被测对象返回的信号来重构被测对象的空间散射强度[3]。对比这两种方式，AMMW***可以实现实时成像，成像质量也优于被动式***。

基于主动式毫米波成像***的违禁物体自动化检测算法近年来已经被广泛研究。2017年底，美国国家***在Kaggle挑战赛中公开发布了名为“Passenger ScreeningAlgorithmChallenge”的比赛，比赛采用的数据集是基于AMMW成像设备获取到的人体成像结果。挑战赛要求使用计算机视觉技术，自动化地识别带有违禁物体的人体图像。文献[5]将识别违禁物体看成是图像分割与分类任务，利用图像分割技术将人体分成17个区域，利用分类技术来识别每个人体区域中潜在的危险物，在Kaggle挑战赛中取得了良好的成绩。除了上述算法，[5][6]将识别违禁物体看成是前景目标检测任务，给定数据集[3],回归出危险物体在人体中的位置以及置信度。[5]提出概率累积图，其可以有效地获得前景目标的位置信息。[6]利用卷积神经网络提取特征，利用两阶段的目标检测器来定位人体中的潜在危险物。

上述对毫米波图像的违禁物体检测算法都是采用卷积神经网络来提取特征，并且取得了一定的性能突破。然而上述算法都没有考虑到应用在安防领域中毫米波成像算法的一个重要特点—人体上下文信息。所有关于安防、安检的毫米波图像中，检测场景都是不变的，图像中的上下文关系也是固定的，人体上下文与违禁物体的分布也存在相关性。因此，仅使用训练集中违禁物体的外观特征来进行预测是一种不合理的预测方式，可能会导致漏检、误报等。

下面介绍与本发明相关的一些重要概念：

1、两阶段目标检测算法

两阶段(two-stage)目标检测算法指提取候选框(anchors)和预测候选框的相对位置偏移与类别概率是在不同的阶段完成，由不同的代价函数来控制这两个阶段。第二个阶段的输入的是第一个阶段提取候选框的结果。第二阶段修正第一阶段产生的候选框的位置，并且对候选框中的物体类别做出判断。

下面介绍候选框的概念，如图1所示，虚线的包围盒(Bounding Box)是真实标签(GroundTruth)，剩余颜色的包围盒是检测算法在检测开始之前生成的候选框，这些候选框是由不同长宽比、不同长宽的包围盒组成。具体生成候选框的方式参考步骤2.1.

检测器会按照下述公式从候选框中来选择正负样本：

其中，θ₁和θ₂分别为决策正负样本的阈值，IOU采用下述公式(2)计算，P表示候选框，G表示地面真实(Ground Truth)，Area(X)表示求解X包围盒的面积。

按照公式(1)的选择候选框的规则会产生大量的负样本，导致正负样本不均衡的问题，因此在挑选出正样本之后，按照正负样本为1:3的比例挑选出一分部较难识别的负样本进行训练，而不是将所有的负样本都送入到第二阶段进行训练。一般来说，在FasterRCNN[7]，RPN[8]等两阶段检测器中，公式(1)中的决策正负样本的阈值θ₁和θ₂分别取0.5和0.3。

2、一阶段目标检测算法

一阶段(one-stage，或者称作one-shot)目标检测算法是指提取候选框和使用候选框来预测Ground Truth在一个阶段完成，通常是端到端的深度学习模型架构。

一阶段检测算法初始化候选框的方式、判定正负样本的方式与两阶段检测算法相同，可参考上文。在SSD[9]中，θ₁和θ₂分别取0.5和0.5。在从候选框中合理地挑选出了一定比例的正负样本之后，训练的代价函数如下：

其中，N是挑选出的正样本的个数。L_cls(I,C)表示类别预测，L_loc(I,P,G))表示位置回归预测，α表示惩罚因子，C是训练集中的类别个数，I是示性项，

当且仅当第i个候选框和第j个Ground Truth匹配时，I＝1。

回归项如公式(4)，

和

分别表示第i个候选框和第j个GroundTruth的中心点坐标，

和

分别表示第i个候选框和第j个Ground Truth的宽和高。

是候选框发生的相对偏移。

是对第i个候选框发生偏移的回归预测。

类别预测项如公式(6)，

是第i个候选框关于第k类的预测概率，

是第i类候选框关于背景的预测概率。

可以看到，初始化的候选框大小影响到了正负样本的数量。因此选用合理的宽和高初始化候选框可以有效地提高被选择的正样本数量。在具体实施方式中，本发明也采用实验说明了这一假设。

发明内容

本发明的目的是针对毫米波图像，提出一种基于人体上下文关系的危险物检测方法，使得机器可以自动化识别毫米波图像中的危险物体，达到实时性，有助于提升安检、安防的效率。

本发明技术方案的思想如附图2，本发明流程分为：1,自下而上(bottom-up)；2，自顶而下(top-down)两个过程。其中，自下而上过程的功能是检测潜在的危险物体；自顶而下过程的功能是：a.恢复人体上下文信息，b.将来自于自下而上过程中的特征图与带有人体上下文信息的特征图进行融合，c.负责最终预测危险物体。当自下而上过程可以提取到有关于危险物体的特征图后，显著性模块(Attention Module)采用注意力集中机制，选取一部分来自于自下而上(bottom-up)过程中的表达危险物体特征的特征图，将通过注意力集中机制后的结果与自顶而下的人体上下文结合。

另外，由于初始化的候选框(详见背景介绍部分)并不能与地面真实(GroundTruth)产生较大的重合区域，从而导致候选框内含有较多的噪声信息。因此为了解决这个问题，本发明采用多任务学习，添加辅助监督(AuxiliarySupervision)，其通过自下而上过程的候选框的回归结果来初始化自顶而下过程的候选框。采用结合辅助监督与SSD代价函数的多目标优化方式来优化上述模型。

本发明提供基于毫米波图像人体上下文信息的危险物体检测方法，包括构建网络结构的方法，设计代价函数的方法等，训练以及测试见具体实施方式部分。具体步骤如下：

步骤1、自下而上：对毫米波图像进行下采样，并选择三个层级的特征图进行预测。

1.1：将毫米波图像输入到卷积神经网络(CNN)中，提取特征，并进行下采样操作。所述卷积神经网络一共有10个卷积层，用于提取特征；这10个卷积层分为是：Conv1_1，Conv1_2，Conv2_1，Conv2_2，Conv3_1，Conv3_2，Conv3_3，Conv4_1，Conv4_2，Conv4_3；其中卷积核大小设置为3×3，卷积核移动步长大小为1，卷积边界处补0处理。如图2所示，图中可视化出的特征图分别是Conv1_2，Conv2_2，Conv3_3，Conv4_3的卷积核提取到的特征，即由Conv1_2，Conv2_2，Conv3_3，Conv4_3的卷积核提取到的特征图，仍记为Conv1_2，Conv2_2，Conv3_3，Conv4_3；采用卷积操作的目的是获取图像的局部抽象特征；

池化操作：Conv1_2，Conv2_2，Conv3_3卷积核之后都采用最大池化操作来实现降采样操作，每个最大池化操作降采样图像大小两倍；

1.2：对Conv4_3采用步骤1.1介绍的最大池化进行两次下采样操作，每次下采样两倍，下采样后得到的特征图命名为fc7,conv6_2；

1.3：选取conv4_3、fc7、conv6_2这三个层级的特征图进行预测。特征图conv4_3对原始图像下采样8倍，特征图fc7对原始图像下采样16倍，特征图conv6_2对原始图像下采样32倍；这三个不同层级的特征图分别代表了不同尺度的危险物体。

步骤2、自下而上：根据特征图，在毫米波图像中初始化候选框，并挑选出正负样本。

2.1：针对conv4_3，fc7，conv6_2这三个层级的特征图中的每一个特征点，分别在原始图像中初始化第i个候选框

其中，cx表示候选框中心点的横坐标，cy表示候选框中心点的纵坐标，w表示候选框的宽，h表示候选框的高。候选框的初始化方法按照公式(7)-公式(9),初始化结果如图1所示。图1中，虚线包围盒表示地面真实(Ground Truth)，其余颜色代表算法初始化的候选框；

上述公式中，s_k∈{conv4_3,fc7,conv6_2}，表示参与预测的层级特征图初始化候选框的比例因子(针对毫米波图像的宽高比例)；n表示参与预测的层级特征图的个数，在本发明中，n＝3；s_min表示全局最小比例；s_max表示全局最大比例。r_j代表不同宽高比的集合。W代表毫米波图像的宽度，H代表毫米波图像的高度。

在SSD[9]中，针对自然图像数据集，取s_min＝0.2，s_max＝0.9。而由于本发明是针对毫米波图像，毫米波图像中的前景物体的面积远小于自然图像中前景物体的面积，如图3所示。因此，本发明在实施例中，将s_min设置为0.1，s_max设置为0.4。

2.2：步骤2.1结束后，候选框已经可以覆盖原始图像。此时按照公式(1)，将每个由步骤2.1产生的候选框标定为正样本或负样本。本发明实施例中，阈值θ₁和θ₂分别设置为0.3和0.3。

步骤3、自顶而下：对步骤1得到的特征图conv6_2进行上采样，恢复人体上下文信息；

3.1：如图2所示，步骤1将原始图像通过CNN下采样32倍，得到特征图conv6_2；将conv6_2通过显著性融合(Attention Module)，得到特征图E6。在自下而上过程中，conv4_3，fc7，conv6_2可以提取到前景特征。基于conv4_3，fc7，conv6_2所提取的前景特征，显著性融合模块的目的是从这些有效前景特征中选择一部分更加具有代表性的前景特征与人体上下文信息融合，对自下而上过程中的特征进行筛选(将注意力集中到一部分特征中)。本发明采用S-E架构[11]实现显著性融合；

3.2：步骤3.1得到了特征图E6，利用特征图E6来恢复人体上下文信息；通过反卷积操作[12]上采样得到E6’；

3.3：将步骤1.1得到的特征图fc7通过显著性融合模块，将本次显著性融合模块的输出特征图与步骤3.2中得到的特征图E6’进行融合(采用加法进行融合)，融合后得到特征图E5；

3.4：再次，仿照步骤3.2和步骤3.3，得到特征图E4。

步骤4、自顶而下：在毫米波原图中生成候选框，并挑选出正负样本。

由步骤3.4产生了E4，E5，E6三个层级的特征图，其分别是原始图像的1/8，1/16，1/32倍；利用这三个层级的特征图来预测最终的危险物体(或违禁物体)。

4.1：针对特征图E4，E5，E6这三个特征图初始化候选框。

对特征图E4，E5，E6中的每一个特征点都按照如下规则产生修正后的第i个候选框

这里，

是对第i个候选框发生偏移的回归预测，m∈{cx,cy,w,h}，如公式(5)，其中，cx表示候选框中心点的横坐标，cy表示候选框中心点的纵坐标，w表示候选框的宽，h表示候选框的高。

是自下而上阶段中辅助监督函数学习到的修正向量。这里利用该向量与步骤2.1阶段产生的候选框

来初始化E4，E5，E6的候选框

为了便于理解，图5可视化了这个流程。其中，虚线的包围盒代表Ground Truth，其他颜色包围盒代表的候选框。A是输入图像，B是步骤2.1产生的候选框，C是步骤4.1修正后的候选框，D是经过SSD代价函数的回归结果。

4.2：步骤4.1结束后，修正的候选框已经可以较大程度与Ground Truth重合。之后，依据公式(1)，将每个由步骤4.1产生的候选框标定为正样本或负样本。本发明在实施例中，阈值θ₁和θ₂分别设置为0.7和0.3。(由于候选框已经修正，因此相对于步骤2.2中设置的θ₁＝0.3和θ₂＝0.3，适当地提高正样本阈值θ₁＝0.7，选择正样本阈值的依据是：在不降低模型性能的前提下，尽可能地提高θ₁)

步骤5、利用辅助监督(Auxiliary Supervision)来优化步骤2的结果。

步骤2.2结束之后，可以获得一系列的正样本和负样本，利用公式(3)优化自下而上(bottom-up)过程，其优点是：a.浅层网络可以有效学习到小目标的外貌特征；b.可以学习到候选框的回归项

通过此项来修正自顶而下过程初始化的候选框。

针对步骤2.2所获得的正样本，采用公式(4)来学习候选框回归项

针对步骤2.2所获得的正样本和负样本，采用公式(6)来正确判别正负样本。为了进一步提高模型训练的便捷度，通过多任务学习机制，设置位置回归惩罚项α＝1，共同学习回归项

和正负样本判别项。

步骤6、利用SSD代价函数来优化步骤4的结果。

步骤4.2结束之后，候选框已经完成了位置坐标的修正，则采用公式(3)优化自顶而下(top-down)过程。

针对步骤4.2所获得的修正后正样本，采用公式(4)来学习最终的第i个候选框回归项

其中，cx表示候选框中心点的横坐标，cy表示候选框中心点的纵坐标，w表示候选框的宽，h表示候选框的高。

针对步骤4.2所获得的修正后正样本和负样本，采用公式(6)来正确判别正负样本。为了进一步提高模型训练的便捷度，通过多任务学习机制，设置位置回归惩罚项α＝1，共同学习回归项

和正负样本判别项。

本发明针对毫米波图像，提出利用自顶而上过程来获取毫米波图像中的人体上下文信息，通过显著性融合模块将一部分具有代表性的前景目标特征与自顶而上过程获取到的人体上下文信息相融合。最后，采用辅助监督函数来优化自下而上过程，并且对自下而上过程中初始化的候选框进行修正，修正后的候选框可以较准确地描述地面真实(GroundTruth)，从而提高模型的准确率。实验表明，采用人体上下文信息和显著性融合后的模型提高了29.13％的召回率，通过辅助监督函数来修正候选框可以进一步提升模型3.68％准确率。

附图说明

图1是参与预测的特征图在原图产生的候选框(anchors)的结果。

图2是本发明的整体架构。通过自下而上和自顶而下的过程来融合人体上下文信息。

图3是自然图像中前景目标的面积大小与毫米波图像中前景目标的面积大小对比图。图左是自然图像的统计结果，图右是毫米波图像的统计结果。横坐标GT area表示前景目标的面积大小，纵坐标Number表示前景目标的数目。

图4是不同的网络结构。其中，A是HRF_1，B是HRF_2，C是HRF_3。

图5是候选框修正过程的示意图。其中，A是原始输入到网络的图片，虚线包围盒表示Ground Truth。B是自下而上阶段初始化的候选框。C是经过步骤4.1修正之后的候选框。D是采用E4，E5，E6以及图C的候选框进行预测的结果。

图6是显著性模块在验证集上的对比结果。横坐标Training iterations表示是训练迭代次数，纵坐标mAP表示的是检测器的性能指标。

图7是本发明与DSOD[13]模型的对比结果。横坐标Training iterations表示是训练迭代次数，纵坐标mAP表示的是检测器的性能指标。

图8自下而上过程的预测结果与自顶而下过程的预测结果的对比(选取正样本的阈值设置为0.01)。

图9是Baseline模型、HRF_1模型与HRF_1_AS模型的预测结果对比。红色包围盒表示预测结果，虚线包围盒表示Ground Truth。

图10是Baseline模型、HRF_1模型与HRF_1_AS模型的特征图可视化结果。左图是输入图像，右图是特征图。

具体实施方式

下面，在毫米波数据集中来说明本发明的具体实施方式。

数据集说明：本发明采用的数据集来自于[3]，其中包含15万张带有违禁物体的训练集图像，6454张带有违禁物体的验证集图像，9个标准测试集。

1、消融实验：

训练实验设置：

在上述训练数据集中的15万张图片中进行训练，代码采用caffe[14]编写，本节所有实验都按照如下实验设置进行：

初始化学习率:0.001；

训练周期:约20次遍历训练集，又叫做epochs数；

训练迭代次数：45000次，每次抓取的batch size的个数：64；

优化算法，带冲量SGD，momentum设置为0.9；

正则项：采用L2，其中惩罚因子(weight decay)设置为0.0005；

预训练模型：加载SSD[9]模型在VOC0712数据集上的训练的最优结果作为初始化参数。

测试实验设置：

测试在9个标准测试集中完成。

测试集构建：测试集来自于不同的采集时间、不同的身高和体型的人，以不同的姿态进行采集的结果。测试集中包含50％张含有危险物体的图像与50％张完全不含有危险物体的图像。

测试过程中，以下所有实验设置正样本阈值为0.5，设置检出重合度为0.1(即网络的预测结果与Ground Truth的重合度大于0.1即判断为检出)。

1.1、自下而上(bottom-up)和自顶而下(top-down)效果：

本节overlap定义为，训练时选取正样本的阈值(候选框与Ground Truth的重合度)

如表1所示，基线模型采用SSD[9]，由于毫米波数据集中前景目标的面积小，见图3。因此本发明将SSD初始化候选框的比例系数修改为：s_min设置为0.1，s_max设置为0.4，并在以后的所有实验中延用这个设置，详见公式(7)。

由于考虑到毫米波数据集的尺度基本固定的特性，本发明将SSD[9]模型的conv7_2,conv8_2,conv9_2去除，实验表明删除高层特征图并没有导致模型的性能下降，因此在之后的实验中，我们仅采样到conv6_2层。

毫米波数据集的尺度基本固定不变特性是由于实际使用场景导致的。在实际使用中，毫米波成像设备距离被测人体之间的距离总是固定的，因此，网络不需要考虑远距离的人体信息以及人体携带的危险物体，只需要考虑基于相同距离的不同身材、不同高矮、不同姿态的成像信息。实验结果也证明了本发明的这一假设。

表1.不同层级的特征图预测的对比结果，所有数据训练的overlap＝0.3(Recall代表检出率，Precision代表准确率，AVG表示九个测试集的平均值，F1表示f1分数)

表1中的HRF_1、HRF_2、HRF_3分别对应图4中的A、B、C。分别地，A采用E4、E5、E6三个层级特征图预测最终结果；B采用E3、E4、E5三个层级特征图分别预测最终结果；C采用E5、E6、E7三个层级特征图分别预测最终结果。实验表明，这三种融入人体上下文信息的方式都可以有效地提升基线模型[9]，其中，HRF_2的效果最好，原因是由于HRF_2架构采用更多的高分辨率的特征图预测，但耗时较大。因此为了折中性能与网络计算时间，本发明采用HRF_1网络架构进行下面的研究。

1.2、显著性融合模块(Attention module)效果：

显著性模块的目的：当自顶而下(top-down)过程产生了带有人体上下文信息的特征图后，我们希望在浅层获取到的表达前景目标的特征图可以有效地与这些带有人体上下文信息的特征图相互融合。那么本节将对融合方式进行研究。

HRF_1_Conv256表示采用卷积的方式从自下而上(bottom-up)过程中选择256个特征来表示前景目标。并采用加法与自顶而下(top-down)过程产生的特征图融合。

HRF_1_concat表示采用卷积的方式从自下而上过程中选择256个特征来表示前景目标。并采用级联的方式与自顶而下过程产生的特征图融合。

HRF_1_SE表示采用SE[11]架构从自下而上过程中选择表示前景目标的特征。并采用加法与自顶而下过程产生的特征图融合。

HRF_1w/o Attention Module表示不与自下而上的特征图融合。

实验结果如表2：

表2.针对显著性模块的对比,所有数据训练的overlap＝0.3(Recall代表检出率，Precision代表准确率，AVG表示九个测试集的平均值，F1表示f1分数)

通过比较表2，可以看到不结合自下而上过程的特征图时，模型的在每个测试集上的检出率较低，而随着显著性模块的提取能力变强，模型的检出率也逐渐升高。图6是在6454张验证集上的结果，可以看出HRF_1_Conv256的收敛性和mAP指标都优于不带有注意力集中机制的模型。最终，实验表明采用卷积进行注意力集中并且采用加法融合的效果最优。因此在后续的实验中，我们采用HRF_1_Conv256来进一步研究。

1.3、辅助监督(Auxiliary Supervision)效果：

辅助监督的目的：在自下而上过程中，conv4_3，fc7，conv6_2会在原图初始化候选框，详见步骤2.1。我们基于对前景目标大小的统计结果，如图3来先验地初始化候选框。基于先验统计信息的初始化候选框的方式虽然可以有效地估计Ground Truth的大小，但是仍然不能随着Ground Truth大小的变化而发生变化。因此，本发明提出辅助监督(AuxiliarySupervision)函数，其目的是:a.辅助监督函数可以学习到conv4_3，fc7，conv6_2的初始化候选框相对于GroundTruth的偏移量

详见步骤4.1，通过偏移量

的矫正，从而重新初始化与Ground Truth重合度较高的候选框，如图5.C。

这里，本发明通过表3来说明对辅助监督函数的研究结果。

HRF_1_Conv256是带有显著性模块的架构。HRF_1_AS表示对HRF_1_Conv256加入辅助监督函数。

本发明研究了不同的overlap对辅助监督函数所产生的效果的影响，这里overlap的定义等同于公式(1)中的θ₁。

HRF_1_AS，overlap＝0.3：可以看到对于HRF_1_Conv256模型，加入辅助监督函数之后，在测试集上的平均检出率提高到了84.92％，但是平均准确率却下降到了73.21％，我们这里认为是HRF_1_AS模型通过候选框矫正，已经具备了定位准确的候选框初始化方法，较低的overlap阈值会导致更多的噪声样本。

因此在后续的实验中，提高overlap。

HRF_1_AS，overlap＝0.7：当overlap从0.3提高到0.7后，实验表明，测试集的平均检出率并没有发生大幅度地下降，与此同时，有效地提高了平均准确率8.81％，提高了f1分数0.0349。

*HRF_1_AS，overlap＝0.7：为了验证是辅助监督函数本身带来的性能提升还是由于

对候选框的修正带来的性能提升，我们设计了模型*HRF_1_AS，overlap＝0.7，其与HRF_1_AS，overlap＝0.7的不同之处是采用步骤2.1初始化候选框，即先验地估计候选框大小。实验结果表明，由于先验地初始化方式，导致测试集的平均检出率下降了6.3％，但是过高的训练overlap又使得模型能够有较高的准确率。

表3.辅助监督函数的比较研究(Recall代表检出率，Precision代表准确率，AVG表示九个测试集的平均值，F1表示f1分数)

2、对比实验：

实验设置：

本节训练实验设置和测试实验设置与消融实验相同，但需要注意的是，在实现SSD[9]，DSOD[13]和DSSD[12]模型时，由于HRF_1_AS_overlap＝0.7采用初始化候选框的方式是：s_min设置为0.1，s_max设置为0.4。因此与原始SSD,DSOD和DSSD实现不同的是，我们将s_min设置为0.1，s_max设置为0.4(原始是s_min＝0.2,s_max＝0.9),事实上，实验结果也表明这一先验性地修改也有助于提升模型在测试集上的表现。

2.1、对比从头开始训练(from scratch)：

由于毫米波成像结果与自然光学图像的成像结果存在一定的差别，但是本发明采用加载在VOC0712数据集训练得到的模型作为预训练模型，而VOC0712数据集是基于光学成像设备采集到的自然图像数据集。因此本节实验的动机是对比从头训练(from scratch)和加载VOC0712数据集训练的区别，从而进一步说明在毫米波数据集中，采用大规模自然图像数据集的预训练模型是有效的。

实验设置：

本发明采用DSOD[13]模型在毫米波数据集上作为从头训练的模型，由于DSOD的训练需要遍历600遍(epochs)训练集或者以上。针对15万张的毫米波训练集，在2块NVIDIATITANXP设备上训练，需要833个小时(34.72天)。因此考虑本实施方式在15万张毫米波数据集中选取一个子集，我们选取19097张图片(这些图片分布在不同时间，包括不同身材、不同身高，不同性别的毫米波成像结果)，将19097张图片划分为14491张训练集和4606张验证集。

Batch size＝64，剩余实验设置与1中介绍的相同。

图7说明了本发明的实验结果。HRF 1AS overlap＝0.7代表上述章节介绍的带有辅助监督函数的HRF架构，采用在VOC0712数据集上的预训练模型。而DSOD是将s_min设置为0.1，s_max设置为0.4。

2.2，对比最好的模型：

表4表明了分别与SSD、DSSD、*DSSD对比的实验结果，其中*DSSD是将DSSD的s_min设置为0.1，s_max设置为0.4。运行时间测试是在NVIDIA TITAN Xp上完成，batch size＝4，取1000次迭代的平均值。

对比DSSD与*DSSD可知，由于自然图像与毫米波图像的前景目标的差异，因此合理地缩小初始化候选框的大小可以有效地提升模型选取正样本的个数，从而提高模型的检出率。

表4.与最好的模型的对比结果(Recall代表检出率，Precision代表准确率，AVG表示九个测试集的平均值，F1表示f1分数，time表示模型的推理时间，单位毫秒)

3、结果分析

说明：为便于研究，将正样本的阈值设置为0.01，虚线包围盒表示Ground Truth，红色包围盒表示预测结果。

本发明给出具体实施过程的实验结果，如图8所示。并在本节对此结果进行分析。图8中，第一行表示模型HRF_1_AS，overlap＝0.7的自下而上过程的检测结果，第二行表示模型HRF_1_AS，overlap＝0.7的自顶而下过程检测结果。

我们利用辅助监督函数，将第一行的预测结果作为第二行预测的初始化候选框，结合人体上下文信息再一次预测危险物体。

图8中，对比A、B、C、D列，一些在自下而上过程中较难检测的危险物体，经过辅助监督函数修正初始化候选框并且融入人体上下文信息后，其能够以较高的概率被分为正样本。

图8中，对比E～J列，说明，有效地候选框初始化可以有效地去除样本噪声，提高危险物体的检测率。

综上，对于毫米波安检数据来说，本发明提出的算法有效结合了基于毫米波的人体上下文信息来预测结果，并且通过添加辅助监督函数，有效地初始化候选框，从而提高模型的预测性能。相比较其他同类算法而言，都具有较高的算法性能和较快的算法运行速度。

在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

参考文献

[1]Sheen D M,Mcmakin D L,Hall T E.Three-dimensional millimeter-waveimaging for concealed weapon detection[J].IEEE Transactions on MicrowaveTheory Techniques,2001,49(9):1581-1592.

[2]Huguenin G R,Goldsmith P F,Deo N C,et al.Contraband detectionsystem.U.S.Patent 5073782,Dec.17,1991.

[3]Zhu Y Z Y,Yang M Y M,Wu L W L,et al.Practical millimeter-waveholographic imaging system with good robustness[J].Chinese Optics Letters,2016,14(10):101101-101105.

[4]Guimaraes A A R.Detecting zones and threat on 3D body in securityairports using deep learning machine[J].arXiv:1802.00565,2018.

[5]姚家雄,杨明辉,朱玉琨,et al.利用卷积神经网络进行毫米波图像违禁物体定位[J].红外与毫米波学报,2017,36(3).

[6]Liu C,Yang M H,Sun X W.TOWARDS ROBUST HUMAN MILLIMETER WAVEIMAGING INSPECTION SYSTEM IN REAL TIME WITH DEEP LEARNING[J].Progress InElectromagnetics Research,2018,161:87-100.

[7]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2015,39(6):1137-1149.

[8]Lin T Y,Dollár,Piotr,Girshick R,et al.Feature Pyramid Networks forObject Detection[C].In CVPR,2017.

[9]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[C].In ECCV,2016.

[10]K.Simonyan and A.Zisserman.Very deep convolutional networks forlarge-scale image recognition.In ICLR,2015.

[11]Hu J,Shen L,Albanie S,et al.Squeeze-and-Excitation Networks[J].InCVPR,2017.

[12]Fu C Y,Liu W,Ranga A,et al.DSSD:Deconvolutional Single ShotDetector[J].In CVPR,2017.

[13]Shen Z,Liu Z,Li J,et al.DSOD:Learning Deeply Supervised ObjectDetectors from Scratch[J].In ICCV,2017.

[14]Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,Long,J.,Girshick,R.,Guadarrama,S.,Darrell,T.:Caffe:Convolutional architecture for fast featureembedding.In:MM.(2014)。

Claims

1.一种基于毫米波图像人体上下文信息的危险物体检测方法，其特征在于，利用卷积神经网络下采样毫米波图像来获得抽象特征，通过自顶而下(top-down)过程来恢复人体上下文信息，通过显著性融合模块将人体携带物的特征与人体上下文的特征进行融合，最后利用辅助监督函数来修正初始化候选框发生的偏移；具体步骤如下：

步骤1、自下而上：对毫米波图像进行下采样，并选择三个层级的特征图进行预测；

1.1：将毫米波图像输入到卷积神经网络(CNN)中，提取特征，并进行下采样操作；所述卷积神经网络一共有10个卷积层，用于提取特征；这10个卷积层分别是：Conv1_1，Conv1_2，Conv2_1，Conv2_2，Conv3_1，Conv3_2，Conv3_3，Conv4_1，Conv4_2，Conv4_3；其中卷积核大小设置为3×3，卷积核移动步长大小为1，卷积边界处补0处理；由Conv1_2，Conv2_2，Conv3_3，Conv4_3的卷积核提取到的特征图，仍记为Conv1_2，Conv2_2，Conv3_3，Conv4_3；

Conv1_2，Conv2_2，Conv3_3卷积核之后都采用最大池化操作来实现降采样操作，每个最大池化操作降采样图像大小两倍；

1.3：选取conv4_3、fc7、conv6_2这三个层级的特征图进行预测；特征图conv4_3对原始图像下采样8倍，特征图fc7对原始图像下采样16倍，特征图conv6_2对原始图像下采样32倍；这三个不同层级的特征图分别代表了不同尺度的危险物体；

步骤2、自下而上：根据特征图，在毫米波图像中初始化候选框，并挑选出正负样本；

其中，cx表示候选框中心点的横坐标，cy表示候选框中心点的纵坐标，w表示候选框的宽，h表示候选框的高；候选框的初始化方法按照公式(7)-公式(9)进行：

上述公式中，s_k∈{conv4_3,fc7,conv6_2}，表示参与预测的层级特征图初始化候选框的比例因子，即针对毫米波图像的宽高比例；n表示参与预测的层级特征图的个数，取n＝3；s_min表示全局最小比例；s_max表示全局最大比例，r_j代表不同宽高比的集合，W代表毫米波图像的宽度，H代表毫米波图像的高度；

2.2：步骤2.1结束后，候选框已经可以覆盖原始图像，此时按照公式(1)，将每个由步骤2.1产生的候选框标定为正样本或负样本：

其中，θ₁和θ₂分别为决策正负样本的阈值，IOU采用下述公式(2)计算，P表示候选框，G表示地面真实，Area(X)表示求解X包围盒的面积：

3.1：步骤1将原始图像通过CNN下采样32倍，得到特征图conv6_2；将conv6_2通过显著性融合模块，得到特征图E6；在自下而上过程中，由conv4_3，fc7，conv6_2提取到前景特征；基于conv4_3，fc7，conv6_2所提取的前景特征，显著性融合模块从这些有效前景特征中选择一部分更加具有代表性的前景特征与人体上下文信息融合，对自下而上过程中的特征进行筛选；这里显著性融合模块采用S-E架构；

3.2：利用步骤3.1得到的特征图E6来恢复人体上下文信息；通过反卷积操作上采样得到E6’；

3.3：将步骤1.1得到的特征图fc7通过显著性融合模块，将本次显著性融合模块的输出特征图与步骤3.2中得到的特征图E6’进行融合，融合后得到特征图E5；

3.4：再次，仿照步骤3.2和步骤3.3，得到特征图E4；

步骤4、自顶而下：在毫米波原图中生成候选框，并挑选出正负样本；

由步骤3.4产生了E4，E5，E6三个层级的特征图，其分别是原始图像的1/8，1/16，1/32倍；利用这三个层级的特征图来预测最终的危险物体；

4.1：针对特征图E4，E5，E6这三个特征图初始化候选框；