CN113642520B

CN113642520B - 一种带有头部信息的双任务行人检测方法

Info

Publication number: CN113642520B
Application number: CN202111015624.7A
Authority: CN
Inventors: 肖华欣; 陈琛; 李京蓓; 彭杨; 刘煜; 张茂军
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-05-30
Anticipated expiration: 2041-08-31
Also published as: CN113642520A

Abstract

本发明公开了一种带有头部信息的双任务行人检测方法，步骤包括：获取带有行人的图像；将图像输入主干网络，同时提取图像中行人的头部区域和身体区域；根据人的头部区域和身体区域的比例关系，使用嵌入向量和损失函数通过学习的方法，将头部区域的中心点和身体区域的中心点匹配为属于同一行人的头部中心点和身体重心点；当头部中心点无法匹配到合适的身体中心点，且头部区域检测的置信度大于预设第一阈值时，认为该头部检测区域为可靠检测结果；输出带有行人头部标记框和身体标记框的图像。本发明借助行人头部，引入推拉损失函数改进模型训练的关注方向，显著提高遮挡情况下的行人检测精度。

Description

一种带有头部信息的双任务行人检测方法

技术领域

本发明属于图像识别技术领域，尤其涉及一种带有头部信息的双任务行人检测方法。

背景技术

行人作为真实场景下生产生活的主要对象，是各种应用最重要的的出发点和关注点之一，与此密切相关的行人检测技术也取得了长足进展。无人机具有快速灵活的特点，结合行人检测技术，将会提高其在智能安防、军事等领域的应用价值。无人机从低空中拍摄的图像称为低空俯拍场景。对于行人检测任务来说，该场景面临着内容复杂、光照变化、视角变化等独特的挑战，同时误检和漏检始终是行人检测研究的阻碍，如何提高该场景下行人检测算法的稳定性和实时性仍是一个难题。基于深度学习开展专门研究，提高行人检测性能，减少漏检和误检，压缩模型尺寸，是低空俯拍图像下行人检测以及无人机应用智能化的当务之急。

在现实环境中，遮挡情况发生频繁，许多行人数据集在构建时候亦关注到该问题。在Caltech数据集中近40％的行人存在不同程度的遮挡，图像样本在城市中心采集的CityPersons数据集情况更为严重，约70％的行人被背景或其他行人所遮挡，在被遮挡的行人样本中，超过一半的属于严重遮挡，即被遮挡区域占标注框范围超过35％。而在着重强调密集人群引起遮挡问题的CrowdHuman数据集中严重遮挡的比例接近70％。通常，解决行人检测问题的思路主要包括整体模型法(holisticmodel)和部件模型法(part-basedmodel)。整体模型法将候选区域中的行人当作一个完备的整体进行检测，思路较为直观简洁。在面对遮挡问题时，通常假设使用行人的全身标注框训练深度神经网络可以令网络具有处理遮挡噪声的能力，或者通过引入不同程度的遮挡噪声样本来提升模型的泛化能力。部分方法通过引入额外辅助的特征信息，提升模型对被遮挡行人的判别能力；或者通过改进目标函数的方法，有针对性的训练神经网络处理遮挡异常时的能力。然而整体模型更倾向于提取行人在无遮挡情况下的特征，虽然通过改进后，具备一定的抗遮挡能力，但是随着遮挡面积逐步扩大，行人固有的整体结构被严重破坏，检测性能快速下降。针对上述问题，有研究人员提出了部件模型的思想，DPM方法是其中较为典型的思路。在这些方法中，行人不再被视为从一个整体，而是由不同部件组合而成，由训练单一整体模型转而有针对性地对不同部件训练子检测器。当行人被部分遮挡时，负责可见区域的检测器依然可以正常工作之后再通过特定的决策策略融合所有子检测器的结果，判断当前目标是被遮挡的行人或是与行人相似的误检。许多深度学习方法也借鉴了这一经典思想。然而，目前流行的公开数据集中并没有完备的部件标记，研究人员需要自己设计部件模型所需的统计模板以及训练真值。行人在真实场景中被遮挡区域多种多样通过穷举的方法照难以顾到所有遮挡模式，生成的模板和训练真值与真实情况并不完全相符。由于部件模型法需要统计所有子检测的预测结果，每个子检测的性能都至关重要，增加了不稳定因素。此外，如何设计子检测器的融合策略也是需要关注的问题，有偏差的融合策略也会导致整体模型性能下降。

发明内容

回顾生活经验可知，在密集人群场景下想要寻找某个人时，人们往往先通过在人群中定位他的头部，再接着缩减搜索区域，判断对应的行人是否为想要的目标。在实际场景中，行人的头部区域相较于人体区域重叠区域较小，遮挡程度较轻。相较于肢体等区域，头部区域的外观更为稳定，尺度变化较小，在图像中的完整性更高，对于辅助行人检测，是一种理想且稳定的部件。此外，部分行人检测数据集中提供了完整的头部标注，为模型训练提供了有力支撑。基于以上观察，针对行人严重遮挡场景问题，本发明提出了一种基于头部信息约束的双任务网络CrowdDet同时检测行人身体区域与头部区域。利用头部信息作为线索，改进模型应对遮挡场景下的能力，同时能检测对应行人的头部区域。与行人身体区域相比，头部区域在密集人群场景下具有更好的可见性，为正确检测的概率更高，鲁棒性更好。基于此先验知识，本发明提出了一种带有头部信息的双任务行人检测方法，基于头部与身体一一对应的物理约束条件，设计了一个头-身匹配模块(Head-Body Alignment Map,HBAM),首先提取出待检图像中所有的头部中心点与身体中心点，利用精心设计的损失函数，通过学习的方法,获得属于同一行人实例头部与身体的匹配关系,令模型的注意力逐渐从遮挡区域偏移,从而提升检测器在遮挡区域的效果。另外,我们统计了头部区域与身体区域的比例关系，对每个头部标签生成一个候选的行人预测结果(Candidate Prediction,CP)，扩充普通行人预测结果(General Prediction，GP)候选池，能有效的缓解漏检问题。

本发明公开的带有头部信息的双任务行人检测方法，包括以下步骤：

获取带有行人的图像；

将图像输入主干网络，同时提取图像中行人的头部区域和身体区域；

根据人的头部区域和身体区域的比例关系，使用嵌入向量和损失函数通过学习的方法，将头部区域的中心点和身体区域的中心点匹配为属于同一行人的头部中心点和身体重心点；

当头部中心点无法匹配到合适的身体中心点，且头部区域检测的置信度大于预设第一阈值时，认为该头部检测区域为可靠检测结果；

输出带有行人头部标记框和身体标记框的图像。

进一步地，所述损失函数L_HBAM如下所示：

L_HBAM＝L_pull+L_push

其中k为行人编号，e_k为该行人的参考向量，

为该行人的头部向量，/>

为该行人的身体嵌入向量，L_pull为拉损失函数，L_push为推损失函数。

进一步地，对于每个行人检测结果P_p若它的置信度P_conf低于所述第一阈值，但有可靠对应的头部检测结果C_p，计算该检测结果与基于C_p生成的行人检测框P_back之间的IoU。若同时满足P_conf低于所述第一阈值且P_p与P_back之间的IoU大于预设第二阈值，则将P_back替换掉P_p，认为是更准确的检测框作为预测结果输出。

进一步地，在训练神经网络之前，对输入数据进行自适配归一化法处理，对批量归一化方法BN、实例归一化方法IN和层归一化方法LN进行加权求和。

进一步地，所述主干网络为深度层聚合网络。

进一步地，深度层聚合网络中的跳跃连接层中用可形变卷积，所有的上采样层为3×3的带有可形变卷积的卷积层。

本发明的有益效果如下：

本发明提出了一种基于行人头部线索的双任务检测方法CrowdDet，主要改进模块为HBAM、额外中心点、自适应批归一化方法。其核心思想是充分借助行人中外观稳定且不易被遮挡的头部可见区域，减少遮挡对模型的干扰，提升模型对于行人检测与头部区域检测双任务的效果。HBAM模块通过引入“推-拉”损失函数的方式改进模型训练时的关注方向，连立网络对头部区域的特征响应和身体区域的特征响应，过滤掉因遮挡产生的不正确的身体特征中心点，避免产生大量假阳性的行人预测结果由于引入了HBAM的强匹配机制，部分本应被视为正确预测结果的头部预测结果，因无法匹配上合适的身体中心点被过滤掉。通过统计行人头部区域与身体区域之间的比例信息，提出一种对头部中心点添加额外身体中心点的增强方法，额外身体中心点可以在头-身匹配失效且头部区域具有较高置信度时，作为一种较为可靠的行人预测结果。为了更好的训练单基础网络的多任务网络，引入了自适配的归一化方法，调整网络在不同结构区域的归一化方法，进一步提升网络性能。在CrowdHuman数据集和CityPersons数据集上的进行的实验表明，本发明提出的CrowdDet能显著提高遮挡情况下的行人检测精度，在CrowdHuman数据集上进行的消融实验表明，本发明提出的各个组件均对模型的性能有正向提升。

附图说明

图1本发明双任务行人检测流程示意图；

图2本发明HBAM流程示意图；

图3本发明行人头部区域与身体区域比例关系；

图4本发明网络各模块中三种归一化方式占比；

图5CrowdHuman数据集中图像的检测结果；

图6CenterNet在VisDrone数据集上检测结果示意图；

图7本发明在VisDrone数据集上检测结果示意图；

图8本发明头部中心点的扩展行人框生效示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

获取带有行人的图像；

输出带有行人头部标记框和身体标记框的图像。

密集场景下行人之间重叠区域较大，网络在提取特征时容易产生特征响应粘连的问题，导致模型的预测框出现漂移或被后处理模组错误抑制的情况。对于如Faster RCNN、YOLO此类基于锚框的检测器来说，标注的真值框不可避免的会引入行人之间的重叠区域和大量背景区域，导致经过主干网络后的行人特征之间扩散后模糊了边界区域。同时需要在多个尺度上将真值框与锚框匹配，这种一对多的标签赋值方式虽然能提升表达的健壮性，但是造成大量重复预测结果，也加剧了密集区域检测的挑战性。事实上，人的视觉***在搜索目标时，会首先将注意力集中在较小区域，缩小范围后再将搜索范围扩张，而不是直接用大小固定的矩形模板在给定区域内进行滑窗。受此启发，本发明提出的CrowdDet检测网络框架如图1所示，主要包括主干网络、HBAM和检测头网络组成。整体框架基于无锚点的单阶段目标检测方法CenterNet，该框架抛弃了锚点思想，性能相比于YOLOv3有了大幅度提升，但推理时间基本保持不变。考虑到速度与精度的平衡，本发明没有直接采用ResNet-50作为主干网络，而是采用更为精简的深度层聚合网络(Deep layer aggregation)DLA-34。

CenterNet是一种基于物体中心点的无锚框目标检测方法：网络首先将目标对象基于其中心点构建模型，检测到中心点后，再通过回归的方法获取目标的其他属性。对于目标检测任务来说，边界框的中心点即为目标的中心点，边界框的宽高则视为目标中心点的属性。而中心点的检测是基于热力图衍生的，需要先生成对应的热力特征图，再估计目标中心点的位置。将输入的RGB图像记为I∈R^W×H×3,其中W和H分别表示输入图像的宽和高。经过主干网络处理后，生成的二值热力特征图可以记为

其中C为热力特征图的通道数，也为待检测目标的类别数，每一层/>

负责检测一类物体。在我们提出的双任务网络中，需要同时检测身体区域和头部区域，因此C＝2。R为下采样因子，即Y相对于I的缩放倍率。对于Y_x,y,c中的某一点(x,y)，若该点处的值为1，则代表该位置检测到属于c类的目标中心点，反之则没有检测到属于c类的目标中心点。

在训练CenterNet时，将给定的标注框记为(x,y,w,h)，其中(x,y)为标注框左上角点，(w,h)为标注框的宽高。则该中心点p的坐标为

在主干网络中经下采样处理后坐标为/>

对于每一个中心点，只有一个位置可以作为真值被标记为正样本，图像其它位置被记为负样本,但是直接使用欧式距离度量预测值和真值的差异会导致训练不稳定。一种常用的办法是对真值周围施加一个高斯核，将离散的点转换成连续的特征图。对于下采样得到的热力特征图Y将标注框通过高斯核

其中σ_p是一个与w和h相关的标准差。若分属不同类别的高斯分布在某些区域出现了重叠，则直接判断该区域属于元素值最大的类别。

CenterNet需要预测中心点的坐标、边界框的宽高以及中心点位置因降采样操作产生的精度损失。因此，总体的损失函数由三部分构成：

L_cen＝L_k+λ₁L_off+λ₂L_size (1)

其中，L_k为度量损失，采用的是聚焦损失(focal loss),L_off为降采样后的中心点偏移损失，L_size为预测框宽高偏差损失，两者都为L1 loss。具体地，基于focal loss的分类损失函数表达式如下：

其中α和β是超参数，N是输入图像I中真值样本的总数，其作用是将所有的正样本实例归一化到1。本发明所有试验中，将α和β分别设为2和4。

为了减少运算量，主干网络会对输入图像进行降采样操作。在检测解码阶段底层特征信息需要恢复到高分辨率，在此过程会产生精度误差。为了更好的预测中心点的位置，可以通过对每个中心点添加额外的小范围的回归预测

将这一部分作为一个优化项进行训练，所有类别共享同样的L_off，具体的偏移量如下式所示：

该监督只约束中心点

附近区域，其他位置则会被忽略掉。

对每个预测的中心点，CenterNet通过回归的方式获得相应预测框的大小。对于所有类别的预测

可以用一个简单的1范数作为损失函数，其表达式如下：

其中S_k为预测框的宽高(w_k，h_k)。这里可以直接采用坐标的真实数值而不需要归一化。

头-身对齐模块

本发明注意到行人头部区域更受到到遮挡、形态更为固定且与行人具有良好的对应关系，因此本发明提出HBAM(Head-Body Alignment Module),将头部视为一种鲁棒的线索，通过匹配检测到的头部区域和身体区域中心点，过滤因密集产生的误检；同时利用头部区域和身体区域的比例关系，提出一种生成额外行人预测的方法，提升模型因遮挡产生的漏检。为对于所有检测到的头部和身体中心点，我们对其额外添加一个嵌入向量，通过这个嵌入向量来匹配属于同一行人的头部中心点和身体中心点。对于某个行人k,其参考向量e_k为对应的的头部向量

和身体的嵌入向量/>

的平均值。从全局上看，我们希望不同行人的参考向量之间的距离应该足够大，能让检测器“推开”不同的行人；而在局部区域，又希望属于同一个人的行人的头部向量和身体向量更靠近对应的参考向量，“拉近”匹配的中心点。因此，通过引入额外的“推-拉”损失函数来训练HBAM：

L_HBAM ＝ L_pull + L_push (7)

在所有实验中，我们将δ设为1。如图2所示，面部的灰色点为预测的头部中心点，身体上的白色点为预测的身体中心点。在训练过程中，通过引入“推-拉”损失函数，模型会更倾向于学习到能互相匹配的中心点，而将更少的注意力放在无法获得良好匹配的点上。和其它点损失函数类似，LHBAM只被应用于中心点附近。结合式1和2，“推-拉”损失函数整体表达如下：

L_HBAM＝L_pull+L_push (8)

基于头部中心点的候选行人框

CrowdHuman数据集同时提供行人头部区域和身体区域的标注。通过对这些标注统计分析后，可以得到头部区域与身体区域标注框中心点的大致比例关系，两者的比例关系如图3(a)所示。考虑到行人头部区域的检测更为可靠，借助该比例关系，对每个头部区域生成了一个候选行人框。如图3(b)所示，灰色矩形框为数据集提供的行人头部标定框，白色矩形框为用该比例关系推算的候选行人框。

由于“推-拉”损失具有较强的约束性，会在过滤假阳性的身体检测结果时同时过滤掉部分因匹配失败的头部中心点。在密集场景下，身体区域被遮挡的概率远大于头部区域，我们认为检测器对头部的检测效果更为可靠和稳定，许多因HBAM组件被过滤掉的头部中心点属于正确的检测结果，提出了一种头部中心点复用策略：当头部中心点无法匹配到合适的身体中心点，且头部区域检测的置信度大于阈值T_ex时，认为该头部检测区域为可靠检测结果，在下文和试验中，若无特殊说明，取T_ex＝0.75。此时这些被找回的头部中心点能输入一个较为可靠的头部检测结果，但是检测器无法提供与之对应的身体检测结果，有悖于身体与头部一一对应的约束要求。在这种情况下，我们认为基于中心点的候选行人框可以作为一种低代价且可靠的检测结果进行输出。额外的，对于每个行人检测结果P_p若它的置信度P_conf低于阈值，但有可靠对应的头部检测结果C_p，CrowdDet会计算该检测结果与基于C_p生成的行人检测框P_back之间的IoU。若同时满足P_conf低于阈值且Pp与P_back之间的IoU大于阈值，则将P_back替换掉P_p，认为是更准确的检测框作为预测结果输出。

自适应归一化层

神经网络的参数量大，模型构成复杂，在训练网络时，通常假设训练数据和测试数据是满足同分布的，若两者分布不同，训练出来的网络性能会大大降低；由于计算资源的限制，难以把所有数据一次存放到计算单元中，需要分批次将数据导入计算单元，若每批次的数据分布不尽相同，网络在每次迭代时需要拟合不同的分布通常来说，在训练神经网络之前，需要对输入数据进行归一化处理，而在实际训练过程中，为了使网络有更好的泛化性，需要引入足够的非线性单元，这使得原始图像经过不同层处理后，进入下一层时的分布会产生变化，这些都导致了训练网络存在诸多的不确定性。想要稳定的将网络训练至收敛，不可避免地需要使用更低的初始降低学习率、合理地选择更优的初始化参数、细致地调整优化器中权重衰减系数和Dropout比例等，这些措施都极大增加了网络的训练时间，并且降低了网络在应对饱和非线性时的鲁棒性。在训练神经网络之前使用批量归一化方法，其算法如下所示：可以看到，批量归一化主要分为3步。

批量归一化算法流程：

输入：批处理(mini-batch)输入x:B＝x₁,…,m

输出：归一化后的网络响应y_i＝BN_γ,β(x_i)

1:计算批处理样本的均值：

2:计算批处理样本的偏差：

3:对样本进行归一化：

4:对样本施加尺度变化及偏移：

5:return学习后的参数γ和β

首先求一个训练批次样本的均值和方差，然后用求得的均值和方差对该批次的训练样本进行归一化，使其符合0-1分布。如上述算法的步骤3所示，在归一化过程中，为了避免分母为0,需要引入一个微小正数∈；最后则是对样本进行尺度变换和平移，如上述算法的步骤4所示，其中γ为缩放因子，β为平移因子，这两个参数均为可学习参数。在归一化后，网络的样本会被限制在正态分布以下，这两个可学习参数用于补偿归一化后网络的表达能力。

归一化方法已成为神经网络的重要组成部分，在批量归一化的基础上，现有技术提出了层归一化、实例归一化等方法。更为一般的，以传统的CNN为例，将一个四维的特征图张量记为(N,C,W,H),将归一化前后的像素点的值分别记为h_ncij和

其中n∈[1,N]为批处理的批次数，C∈[1,C]为特征图通道数，j∈[1,W]和i∈[1,H]分别为像素点的横纵坐标。假设μ和σ为均值和方差,不同的归一化方式均可表示为：

式9概括了三种不同的归一化方法的计算公式。三者之间的区别在于，在计算特征图的均值和方差时，统计的像素点不同。一般的，均值μ和方差σ可以分别记为：

其中k∈IN,LN,BN。BN统计的是单个通道上所有的像素点，LN统计的是单个批次里所有的像素点，而IN则是统计单个批次、单个通道里所有的像素点。具体的，不同归一化的方式统计像素值方式可以用下式表达：

I_BN＝(i,j)|n∈[1,N],i∈[1,H],j∈[1,W],

I_IN＝(i,j)|i∈[1,H],j∈[1,W],

L_LN＝(i,j)|c∈[1,C],i∈[1,H],j∈[1,W] (11)

虽然这些归一化方法能在一定程度上有助于模型的性能，但对于不同的任务不同的归一化方法性能表现不尽相同，具体选择某种归一化方法依赖于人工选择这种调试过程训练人员具有丰富的网络训练经验，且需要大量的对比实验才能确定最合适的归一化方法。特别是对于多任务模型，精巧地设计每一层的归一化方法费时费力。针对这种现象，本发明使用自适配归一化方法(switchable normalization，SN),该方法提出了一个可微的归一化层，允许模型根据数据来学习每一层的归一化方法，或者由BN、IN、LN三种不同归一化方法的加权和。在计算过程中，自适配归一化方法需要为三种不同的归一化方法学习对应的方差μ_k和均值σ_k,k∈{BN,IN,LN}，共计6个标量。更新后的

是三种归一化方法的加权和：

其中，在计算(μ_BN,σ_BN)和(μ_LN,σ_LN)时，可以使用(μ_IN,σ_IN)作为中间变量，从而达到减少计算量的目的。对尺寸为(H,W)的特征图，像素点的坐标记为(i,j),对应的(μ_IN,σ_IN)的计算式如下：

对应的(μ_BN,σ_BN)和(μ_LN,σ_LN)可以根据(μ_IN,σ_IN)得到：

与之对应的权重系数w_k,k∈BN,IN,LN则通过类似softmax的激活函数得到:

其中λ_BN,λ_IN,λ_LN为可学习参数。类似的，也可以通过反向传播的方法学习到w’对应的参数值λ_BN’,λ_IN’,λ_LN’}。综上所述，SN共增加了6个可学习参数φ＝{λ_BN,λ_IN,λ_LN,λ_BN’,λ_IN’,λ_LN’}，将原网络需要优化的参数集记为Θ，则引入了自适配归一化方法的神经网络的损失函数可以记为L(Θ,φ)，所有的参数均可以通过反向传播的方式进行联合优化。在本发明采用的骨干网络DLA-34中，由4个循环块、一个任务块共计54个批归一化层。虽然这些批归一化层提升了网络的性能，但受限于设备的计算性能，批大小(batch size)的值取得不够大，无法充分发挥批归一化层的优势。为了进一步发挥归一化层的性能，本发明使用自适配归一化法，各个循环块中的归一化方法由单一的批归一化法转为了三种归一化方法加权和。为了更进一步探索自适配归一化层带来的转变，统计了不同自适配归一化层中不同归一化方法的权重，及不同归一化方法的均值。如图4所示，Block_n n∈1,2,3,4表示骨干网络中的4个循环块，Head为任务块。可以发现，尽管在不同的循环块中各种归一化方法占比不仅相同，但是与直接应用批归一化法仍有很大不同。在任务块中，三种归一化方法所占权重相当，不同的正则化方法互相补充，能更好的提升网络性能。

在初始化模型参数时，本发明选择用在ImageNet上预训练的DLA-34作为初始值。本发明对DLA-34的结构进行了优化，使其更符合任务需求。为了增加获得的特征的采样空间，对连接底层特征和输出的跳跃连接层中用可形变卷积(deformable convolution)替代了传统卷积，并且把所有的上采样层替换为3x 3的带有可形变卷积的卷积层。图像增强方法包括水平翻转、随机缩放和颜色抖动。不同于DTISC的训练，在训练CrowdDet时，采用更为简洁的Adam。整个训练过程使用的计算资源为一张英伟达GTX 1080Ti显卡。模型训练时，前50k次迭代的学习率设为10^-3,接下来的25k次迭代的训练率设为10^-4,最后的15k次迭代学习率降到10^-5。所有模型在1张GTX 1080Ti GPU显卡上进行训练和测试。

本发明提出的模型主要针对密集场景下的行人检测任务，因此采用更具有针对性的CrowdHuman数据集和CityPersons数据集，分别进行训练和验证。对于检测网络的评价指标包括Recall、AP、MR^-2和FPS四种。对于Recall、AP、FPS来说，其数值越高说明性能越好，而对于MR^-2该项指标，则是数值越小性能越好。表1显示了本发明提出的CrowdDet方法在CrowdHuman数据集上的验证结果,对比的方法包括：数据集提供的基准线模型RetinaNet和FPN、JointDet、Adaptive NMS以及本发明所采用的基准模型CenterNet。

在对比实验过程中,本发明采用了性能/速度平衡兼顾的DLA-34以及性能最优的Hourglass-104两种架构作为主干网络。通过表1中的对比结果可以得知，在使用DLA-34作为主干网络时，本发明提出的CrowdDet较其他模型在验证集上均取得了最优的AP和MR^-2,对比单阶段的基准线模型RetinaNet，AP从77.19％提升到89.55％，MR^-2从65.47％下降为45.26％,FPS则从13.3提升到26.8。相较于目前的最优方法JointDet,本发明提出的方法在Recall上稍有不足，这是因为JointDet作为一种基于两阶段框架的行人检测算法，RPN能极大提升模型的召回率。但是在MR^-2指标上，CrowdDet的性能更优，从46.50％降为45.26％。而在FPS指标上，CrowdDet作为单阶段方法具有较大优势，从5.9提升到26.8。在使用性能更优异的Hourglass-104作为主干网络时，CrowdDet方法的召回率和MR^-2两个指标进一步上升，但是处理速度有较为明显的下降，FPS从26.8下降到16.0。图5展示了CrowdDet在CrowdHuman数据集上部分图像的预测结果，其中包括头部检测框和行人身体检测框。可以直观的发观察到本发明提出的方法在严重遮挡情况下仍具有令人满意的检测效果。

表1在CrowdHuman数据集上与其他方法的对比

Method	Backbone	Recall↑	AP↑	MR^-2↓	FPS
						RetinaNet	ResNet-50	90.96	77.19	65.4	13.3
FPN	ResNet-50	91.51	85.60	55.9	6.4
						FPN+Ad-NMS	ResNet-50	91.27	84.71	49.7	4.7
RFB+Ad-NMS	ResNet-50	90.00	81.40	63.0	5.0
						JointDet	ResNet-50	96.61	87.83	46.5	5.9
ExtremeNet	Hourglass-52	91.24	87.66	54.6	1.7
						Baseline	DLA-34	93.05	86.31	51.5	30.0
CrowdDet	DLA-34	95.75	89.37	46.8	27.1
						CrowdDet(SN)	DLA-34	96.04	89.55	45.2	26.8
CrowdDet	Hourglass-104	96.23	89.26	46.6	18.3
						CrowdDet(SN)	Hourglass-104	96.50	89.61	44.7	16.0

表2显示了CrowdDet方法在CityPersons数据集上的验证结果，对比的方法包括：TLL、RepLoss、OR-CNN、Adaptive NMS、CSP、JointDet。在该数据集上，主要侧重与各种流行方法检测性能的对比，因此只选择了MR^-2作为评价指标。从表中的结果可以发现，CrowdDet在CityPersons数据集的所有验证子集上均取得了最优性能，尤其是在强调遮挡问题的严重子集(Heavy)上,CrowdDet相对于基础检测器CenterNet，MR^-2从61.38％降为46.66％下降14.72％，相对于目前最佳的方法CSP及JointDet,MR^-2也分别下降了4.98％和4.09％。在其它两个子集中，CrowdDet相较于CSP及JointDet的提升并不十分明显，但较基础检测CenterNet下降了2.38％和7.28％。实验证明，本发明提出的CrowdDet检测器能有效应对严重遮挡时的行人检测任务，显著提升模型在该场景下的性能，进一步说明了通过行人头部区域获得稳定的额外线索，是一种处理带有遮挡的行人检测任务的有效方案。

表2CrowdDet在CityPersons与先进行人检测方法的对比

方法	主干网络	Reasonable	Heavy	Partial	Bare
						TLL	ResNet-50	14.28	59.10	17.94	10.07
RepLoss	ResNet-50	13.92	57.91	17.38	8.57
						OR-CNN	ResNet-50	12.85	56.06	16.81	7.72
Adaptive NMS	ResNet-50	11.66	55.19	12.43	6.59
						CSP	ResNet-50	10.85	51.64	10.57	7.01
JointDet	ResNet-50	10.63	50.75	10.20	6.37
						CenterNet	DLA-34	14.57	61.38	17.19	7.84
CrowdDet	DLA-34	9.10	47.02	10.30	5.82
						CrowdDet(SN)	DLA-34	8.73	46.66	10.09	5.76

为了验证本发明提出的方法在低空俯拍场景下的有效性，本部分在VisDrone数据集的行人类别上，分别将本发明提出的CrowdDet与CenterNet和Faster RCNN两种基准方法进行对比，采用的评价指标主要为AP、APs、APm、AP1，所有检测器的训练策略与前面相同。

表3 DTISC在低空俯拍场景下的有效性实验

方法	AP	AP_s	AP_m	AP_l
					CenterNet	51.4	41.5	60.1	73.8
Faster RCNN	53.2	43.0	60.7	74.7
					DTISC	55.4	46.3	61.7	74.4
CrowdDet	56.1	45.8	63.0	76.8

表3中列举了不同方法的检测结果。可以看到CrowdDet检测的正确率达到了56.1％，比基准检测CenterNet方法高出3.7％，证明了本发明方法的有效性。在低空俯拍图像中，小像素行人实例占比更重，头部区域与背景区域的区分度有所下降，对本发明的提出的方法产生了一定影响，因此在APs的评价标准上，本发明提出的CrowdDet比DTISC要低1.5％。但是随着行人实例所占面积的增加，本发明提出方法的优势逐渐显现，在APm和APl下对比DTISC方法均有明显提升，因此总体的正确率上也有所提升。图6和图7展示了CenterNet与本发明提出的CrowdDet在VisDrone数据集上部分测试图像的检测结果。在图中部区域，行人在图像中占比面积较大，两者检测器的效果均达到令人满意的效果。但在人群密集区域，本发明提出的CrowdDet具有明显的优越性观察放大区域可以发现，CenterNet方法难以区分严重遮挡的人群，输出的检测框出现了较为明显的漂移，误检情况和漏检的情况显著增加。而由于行人头部遮挡程度轻与行人躯干遮挡程度，CrowdDet方法可以稳定的检测出行人头部区域，通过HBAM组件稳定识别出互相遮挡的行人。在人群更为密集的图像部分，本发明提出的方法的优越性得到进一步体现。在全局图像上观察，可以发现CrowdDet在图像左上角区域和右侧区域的行人密集区域检输出了更多的更多检测框。放大左上角区域后可以发现，该区域内行人像素占比非常小，行人聚集情况严重，实例之间互相遮挡和受环境遮挡问题更为突出。此时CenterNet方法几乎已经失效，出现了严重的漏检和误检情况；进一步观察该区域可知，许多行人虽然身体区域被严重遮挡，但是头部区域仍具有显著特征且受遮挡程度非常轻微。因此借助HBAM组件和额外的候选行人框策略，本发明提出的CrowdDet在严重遮挡区域仍达到了令人满意的效果。但是行人实例在图像中像素占比缩小，其对应的头部区域也随之缩小，因此本发明提出的方法也在该区域具有一定程度的退化。

在本部分，主要针对“推-拉”损失函数、额外行人中心点、批归一化方法3个模块，分别在CrowdHuman数据集上进行消融实验，以验证各模块的有效性。

为了验证HBAM模块的有效性，我们采用在CenterNet框架上对比不引入HBAM、引入HBAM模块与变体等不同情况下，模型的召回率和MR^-2。为了验证头部线索能提升在严重遮挡情况下的行人检测结果，实验分别测试了引入“推”损失函数、“拉”损失函数、额外中心点的情况。将引入“推”损失函数的模型记为CrowdDet+pull，引入”拉"损失函数的模型记为CrowdDet+push，只引入额外中心点而不引入额外损失函数的模型记为CrowdDet+ck。所有对比的模型均使用单纯的批归一化方法而不采用自适配的归一化方法。结果如表4所示：

表4 CrowdDet在CrowdHuman数据集上

方法	主干网络	头部	身体
				FPN-Head	ResNet-50	57.10	-
FPN-Human	ResNet-50	-	55.94
				Baseline	DLA-34	52.93	51.58
CrowdDet+pull	DLA-34	51.47	49.56
				CrowdDet+push	DLA-34	51.05	48.13
CrowdDet+pp	DLA-34	50.76	47.29
				CrowdDet+ck	DLA-34	48.35	47.47
CrowdDet	DLA-34	47.89	46.82

可以看到，在针对密集人群的情况，基于锚点匹配的FPN方法容易受到遮挡的影响。Baseline方法虽然能同时输出头部与身体区域的检测结果，但是只把这两类当做独立类别进行检测，没有考虑到两者的内在联系，效果不佳。行人实例身体区域中心被遮挡时，模型对该区域进行特征提取时亦会受遮挡物影响而引入噪声。CenterNet采用中心热力图的方式，只关注身体区域中心点的特征，特征响应区域相对基于锚点匹配的方法来说较小，受干扰程度也随之下降。但头部区域由于普遍遮挡程度很低，并且形状和纹理更为稳定，与之对应的，模型对该区域提取的特征也更为稳定，检测结果也更为可靠。在独立引入'推”'拉”损失函数之后，模型对于头部和身体两种区域的检测效果均有上升。比较而言，'推”损失函数效果更为明显，这是因为在密集场景中遮挡问题更为突出，大部分漏检和误检是由于严重遮挡引起的，而'推”损失函数起到的分离作用更为贴合场景。但是由于严格的匹配机制，导致许多本应该属于正取预测结果的头部候选框被网络忽视掉。通过引入额外的中心点复用机制，部分暂时未能正确匹配的头部预测结果可以经由第二次筛选机制得以保留，因此可以观察到CrowdDet+ck在应对头部检测任务中表现更为优异。在图8中展示了中心点复用机制生效时的情况，其中灰色矩形为正确的行人头部检测框，白色矩形为通过复用机制得以保留的行人头部检测框，而白色虚线矩形为该头部框的扩展行人框。虽然扩展行人框对行人预测的边界范围不够精确，但在大部分情况下也属于可以被接受的结果。该实验结果表明HBAM及其子组件的改进能够同时提升行人检测和头部检测精度。

本发明的有益效果如下：

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种带有头部信息的双任务行人检测方法，其特征在于，包括以下步骤：

获取带有行人的图像；

将图像输入主干神经网络，同时提取图像中行人的头部区域和身体区域；

根据人的头部区域和身体区域的比例关系，使用嵌入向量和损失函数通过学习的方法，将头部区域的中心点和身体区域的中心点匹配为属于同一行人的头部中心点和身体中心点；

当头部中心点无法匹配到合适的身体中心点，且头部区域检测的置信度大于预设第一阈值时，认为该头部区域为可靠检测结果；

输出带有行人头部标记框和身体标记框的图像；

其中，所述损失函数L_HBAM如下所示：

L_HBAM＝L_pull+L_push

其中j、k为行人编号，e_j和e_k分别为行人j和k的参考向量，

为该行人的头部向量，

为该行人的身体嵌入向量，L_pull为拉损失函数，L_push为推损失函数，δ为1；

对于每个包括头部和身体的行人检测结果P_p，若它的置信度P_conf低于所述第一阈值，但有可靠对应的头部检测结果C_p，计算该检测结果与基于C_p生成的行人检测框P_back之间的IoU；若同时满足P_conf低于所述第一阈值且P_p与P_back之间的IoU大于预设第二阈值，则将P_back替换掉P_p，认为是更准确的检测框作为预测结果输出；

在训练主干神经网络之前，对输入数据进行自适配归一化法处理，对批量归一化方法BN、实例归一化方法IN和层归一化方法LN进行加权求和，所述加权求和公式如下：

其中，h_ncij和

为归一化前后的像素点的值，k∈{BN,IN,LN}，μ_k为归一化方法学***移因子，γ为缩放因子。

2.根据权利要求1所述的带有头部信息的双任务行人检测方法，其特征在于，所述主干神经网络为深度层聚合网络。

3.根据权利要求2所述的带有头部信息的双任务行人检测方法，其特征在于，深度层聚合网络中的跳跃连接层中用可形变卷积，所有的上采样层为3×3的带有可形变卷积的卷积层。