CN115713731A

CN115713731A - 拥挤场景行人检测模型构建方法及拥挤场景行人检测方法

Info

Publication number: CN115713731A
Application number: CN202310031839.0A
Authority: CN
Inventors: 韩守东; 丁绘霖; 韩志凌; 潘孝枫
Original assignee: Wuhan Tuke Intelligent Technology Co ltd
Current assignee: Hangzhou Tuke Intelligent Information Technology Co ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-02-24
Anticipated expiration: 2043-01-10
Also published as: CN115713731B

Abstract

本发明提供一种拥挤场景行人检测模型构建方法及拥挤场景行人检测方法，在通用目标检测的基础上，构建了互相关联的多个模块共同构成行人检测模型，用于提升目标检测器在拥挤场景下对行人的检测能力。本发明一方面提出了一种引导网络加强对头部区域的关注，促使检测器使用更有辨识力的特征来预测行人的全身区域；另一方面预测局部区域的人群计数，用来指导后处理阶段对相互重叠的检测框的选取，可以在不引入误检的情况下，召回更多漏检的行人。本方法可以与大多数的基于目标检测框架以及多种非极大值抑制算法结合，稳定提升检测器性能。

Description

拥挤场景行人检测模型构建方法及拥挤场景行人检测方法

技术领域

本发明涉及图像处理领域，更具体地，涉及一种拥挤场景行人检测模型构建方法及拥挤场景行人检测方法。

背景技术

随着计算机硬件水平的逐渐提高，GPU 算力的提升，以深度学习为基础的众多人工智能技术进入了发展的黄金时期。计算机视觉技术作为人工智能尤为重要的组成部分，近年来，也受到了极大的关注。计算机视觉技术指通过计算机对摄像设备拍摄的图片或视频进行处理，以实现人眼的功能，从而实现目标检测、目标跟踪、目标识别等效果。行人检测技术因聚焦于行人这一特定目标，从而与社会生产及生活密切相关，所以，行人检测技术一直是计算机视觉领域中的研究重难点。

行人检测可以说是基于目标检测的，但是会针对行人的具体特征，进行适当的优化，从而提高行人的检测效果。具体来讲，行人检测是一种使用计算机来判断图片或者视频中是否存在行人并获取行人的精确位置信息的技术。目前，行人检测技术的应用场景有车辆无人驾驶、安防***等，同时也可以与行人目标跟踪、行人重识别等技术相结合，进而应用于交互机器人***、智慧交通、行人搜索、视频监控***等领域中。

然而，由于行人检测的应用场景可能是商场、街道、十字路口等密集场景，从而会在行人与背景间造成类内、类间遮挡的问题。遮挡会带来行人的表观特征减少，使检测器不能很好的区分遮挡行人和背景，进而造成较高的漏检误检。

发明内容

本发明针对现有技术中存在的技术问题，提供一种拥挤场景行人检测模型构建方法及拥挤场景行人检测方法。

根据本发明的第一方面，提供了一种拥挤场景行人检测模型构建方法，所述检测模型包括主干网络、区域提取网络、解码器、并行的头部引导模块、局部计数预测模块和检测分支模块，包括：

获取训练样本集，所述训练样本集包括多个训练样本，每一个所述训练样本包括含有行人的图像和对应的头部标注框和全身标注框；

基于主干网络提取每一个训练样本的高层次特征，分别经过区域提取网络输出候选框以及经过解码器输出解码特征；

基于每一个训练样本的候选框和解码特征，分别对所述头部引导模块、局部计数预测模块和检测分支模块进行训练，并分别计算所述头部引导模块、局部计数预测模块和检测分支模块的损失函数；

基于所述头部引导模块、局部计数预测模块和检测分支模块的损失函数，调整所述主干网络、区域提取网络、解码器、并行的头部引导模块、局部计数预测模块和检测分支模块的超参数，直到所述检测模型的总损失最小，得到所述检测模型；

其中，所述头部引导模块输出行人的头部预测框，所述局部计数预测模块输出行人对应的局部计数，所述检测分支模块输出行人的全身预测框及分类置信度。

根据本发明的第二方面，提供一种拥挤场景行人检测方法，包括：

将待检测图像通过构建的检测模型中的主干网络获取待检测图像的高层次特征，并通过所述区域提取网络提取候选框，将所述高层次特征和所述候选框输入所述解码器得到解码特征；

将所述候选框和所述解码特征分别输入所述检测分支模块和所述局部计数预测模块，获取行人的全身预测框、分类置信度和行人的局部计数；

基于行人的全身预测框、行人的局部计数和分类置信度，对所述行人的全身预测框使用基于局部计数动态阈值的非极大值抑制算法，得到所述待检测图像的检测结果。

本发明提供的一种拥挤场景行人检测模型构建方法及拥挤场景行人检测方法，在通用目标检测的基础上，构建了互相关联的多个模块联合构成行人检测模型，用于提升目标检测器在拥挤场景下对行人的检测能力。本发明一方面提出了一种引导网络加强对头部区域的关注，促使检测器使用更有辨识力的特征来预测行人的全身区域；另一方面预测局部区域的人群计数，用来指导后处理阶段对相互重叠的检测框的选取，可以在不引入误检的情况下，召回更多漏检的行人。此外，本方法额外引入的参数量及对速度的影响可以忽略不计，以极低的成本显著提高了检测器性能。特别地，本方法可以与大多数的基于提案的目标检测框架以及多种非极大值抑制算法结合，稳定的提升检测器性能。

附图说明

图1为本发明提供的一种拥挤场景行人检测模型构建方法的流程图；

图2为拥挤场景行人检测模型的结构示意图；

图3为本发明提供的一种拥挤场景行人检测方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，这种结合不受步骤先后次序和/或结构组成模式的约束，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

针对现有技术存在的技术问题，本发明提供了拥挤场景行人检测模型以及检测方法，通过头部引导学习的方式，促使检测器使用可视度更高的头部区域来估计全身区域，进而提高遮挡场景下行人的检出率。同时设计了局部计数作为额外的语义信息。设计局部计数动态阈值来辅助非极大值抑制算法，使其能够对区域密度进行感知，采取更加合适的阈值，实现在抑制冗余框的同时，有效保留因遮挡导致的置信度分数较低的检测框。

图1为本发明提供的一种拥挤场景行人检测模型构建方法流程图，其中，如图2所示，检测模型包括主干网络、区域提取网络、解码器、并行的头部引导模块、局部计数预测模块和检测分支模块。检测模型的构建方法包括：

S1，获取训练样本集，所述训练样本集包括多个训练样本，每一个所述训练样本包括含有行人的图像和对应的头部标注框和全身标注框。

可理解的是，对于整个检测模型的训练过程来说，首先，获取训练样本集，其中，训练样本集中包括多个训练样本，每一个训练样本包括包含行人的图像，以及对图像的头部标注框和全身标注框。

S2，基于主干网络提取每一个训练样本的高层次特征，分别经过区域提取网络输出候选框以及经过解码器输出解码特征。

可理解的是，可参见图2，在训练的过程中，对于每一个训练样本，首先，基于主干网络提取图像中的高层次特征，然后高层次特征输入区域提取网络中，输出多个候选框，候选框为包含行人全身的预测框，将候选框和高层次特征输入解码器，由解码器解码得到解码特征。

S3，基于每一个训练样本的候选框和解码特征，分别对所述头部引导模块、局部计数预测模块和检测分支模块进行训练，并分别计算所述头部引导模块、局部计数预测模块和检测分支模块的损失函数。

可理解的是，头部引导模块、局部计数预测模块和检测分支模块为并行模块，基于训练样本集中的每一个图像对应的多个候选框和解码特征，分别训练头部引导模块、局部计数预测模块和检测分支模块。

其中，头部引导模块的训练过程包括：基于区域提取网络从图像中提取的每一个候选框，计算当前候选框与每一个全身标注框的交并比，将与当前候选框的交并比最大的全身标注框作为当前候选框的交并比分配标签；基于区域提取网络提取的每一个候选框，通过分支检测模块输出当前候选框对应的行人的全身预测框，计算全身预测框与每一个全身标注框的损失，将损失最小的全身标注框作为当前候选框的损失分配标签；若候选框的交并比分配标签与损失分配标签一致，则该候选框为无争议的候选框；否则，该候选框为有争议的候选框；基于无争议的候选框和解码特征，对头部引导模块进行迭代训练，每迭代训练一次，计算头部回归损失；基于头部回归损失，调整所述主干网络、区域提取网络、解码器以及所述头部引导模块的超参数。

可理解的是，基于区域提取网络对每一张图像进行检测，输出多个候选框，并基于交并比为每一个候选框分配一个全身标注框，称为该候选框的交并比分配标签。同样的，基于检测分支模块对每一张图像进行检测，输出多个全身预测框，并基于全身预测框与全身标注框的损失为每一个全身预测框对应的候选框分配一个全身标注框，称为该候选框的损失分配标签。

其中，交并比分配标签满足以下公式：

其中,

为候选框，

为全身标注框，

为交并比分配标签，N为全身标注框个数，

为交并比函数；

损失分配标签满足以下公式：

其中，

为边界框回归损失函数，

为行人的全身预测框，

为损失分配标签。

分别得到每一个候选框的交并比分配标签和损失分配标签，根据候选框的交并比分配标签与损失分配标签是否一致得到匹配向量：

若不一致则认为该候选框的标签与所包含信息不一致，被定义为有争议的候选框，若一致则定义为无争议的候选框，基于无争议的候选框对头部引导模块进行训练。

在基于无争议的候选框对头部引导模块进行训练的过程中，头部回归损失的计算公式为：

其中

为第i个候选框对应的头部预测框，

为交并比分配标签对应的头部标注框，K为头部预测框个数。

基于损失函数对主干网络、区域提取网络、解码器以及头部引导模块的超参数进行调整。

其中，局部计数预测模块包括两个串接的全连接层，两个全连接层的中间通道数目为1024，局部计数预测模块的训练过程为：

为区域提取网络提取的每一个候选框进行局部计数标注：

其中

是非极大值抑制算法所采用的交并比阈值,

和

为权重系数，且

，

为阶跃函数，当输入大于0输出1，否则输出0：

。

基于每一个候选框和解码特征对局部计数预测模块进行训练，在训练的过程中，损失函数采用加权的均方误差损失：

其中c_i为局部计数预测模块输出的局部计数,

为调节密度敏感性的超参数。

基于加权的均方误差损失，调整主干网络、区域提取网络、解码器以及局部计数预测模块的超参数。

同样检测分支模块的训练为常规的训练过程，基于检测分支模块输出的全身预测框与全身标注框之间的损失，调整主干网络、区域提取网络、解码器和检测分支模块的超参数。

S4，基于所述头部引导模块、局部计数预测模块和检测分支模块的损失函数，调整所述主干网络、区域提取网络、解码器、并行的头部引导模块、局部计数预测模块和检测分支模块的超参数，直到所述检测模型的总损失最小，得到所述检测模型。

可理解的是，在训练的过程中，是对头部引导模块、局部计数预测模块和检测分支模块联合进行训练，分别计算头部引导模块的损失函数、局部计数预测模块的损失函数和检测分支模块的损失函数，然后根据三个模块的损失函数，计算整个检测模型的损失函数，通过不断调整主干网络、区域提取网络、解码器、头部引导模块、局部计数预测模块和检测分支模块的超参数，使得整个检测模型的总损失最小，获得训练后的最优检测模型。

其中，头部引导模块的输入为通过区域提取网络得到的候选框及通过解码器解码得到的解码特征，输出为行人的头部预测框。局部计数预测模块的输入为通过区域提取网络得到的候选框及通过解码器解码得到的解码特征，输出为行人的局部计数。检测分支模块的输入为通过区域提取网络得到的候选框及通过解码器解码得到的解码特征，输出为行人的全身预测框及分类置信度。

参见图3，为本发明提供的一种拥挤场景行人检测方法，包括：

S1’，将待检测图像通过构建的检测模型中的主干网络获取待检测图像的高层次特征，并通过所述区域提取网络提取候选框，将所述高层次特征和所述候选框输入所述解码器得到解码特征。

可理解的是，上述实施例构建了检测模型，对于待检测图像，分别输入主干网络、区域提取网络和解码器，输出对应的候选框和解码特征。

S2’，将候选框和解码特征分别输入所述检测分支模块和所述局部计数预测模块，获取行人的全身预测框、分类置信度和行人的局部计数。

S3’，基于行人的全身预测框、行人的局部计数和分类置信度，对所述行人的全身预测框使用基于局部计数动态阈值的非极大值抑制算法，得到所述待检测图像的检测结果。

可理解的是，将待检测图像的候选框和解码特征分别输入检测分支模块和局部计数预测模块，输出行人的全身预测框、分类置信度和行人的局部计数。然后，对行人的全身预测框使用基于局部计数动态阈值的非极大值抑制算法，得到待检测图像的全身预测框检测结果。

其中，对行人的全身预测框使用基于局部计数动态阈值的非极大值抑制算法，得到待检测图像的全身预测框检测结果，包括：

步骤1、给定待检测图像的行人的全身预测框集合B及对应分类置信度集合S、局部计数集合C；

步骤2，选定分类置信度最高的全身预测框M并将其从全身预测框集合B中移至最终全身预测框集合F中；

步骤3，取出全身预测框M对应的局部计数c_m，使用下述公式计算局部计数动态阈值:

其中，

是非极大值抑制算法所采用的交并比阈值，

为比例系数，用于调节局部计数与局部计数动态阈值之间的敏感程度；

步骤4，从全身预测框集合B中删除所有与全身检测框M的交并比IoU大于所述局部计数动态阈值

的全身预测框，并在分类置信度集合S中删除对应的分类置信度，以更新所述全身预测框集合B和所述分类置信度集合S；

步骤5，对于全身预测框集合B中所有与全身预测框M的交并比IoU大于

的全身预测框，更新每一个全身预测框的局部计数c_i=c_i-1，其中，c_i为第i个全身预测框的局部计数；

步骤6，对更新后的全身预测框集合B循环执行步骤2至步骤5，直到全身预测框集合B为空，获取最终全身预测框集合F，即待检测图像的最终检测结果。

本发明提供的一种拥挤场景行人检测模型构建方法及拥挤场景行人检测方法，具有以下有益效果：

（1）创新性的使用头部引导模块来促使检测模型使用可视度更高的头部区域预测全身区域，有效的提升了行人拥挤场景下的行人检出率；

（2）利用现有的信息构建了局部计数预测模块，可以作为其他视觉任务相关的语义信息；

（3）设计基于局部计数动态阈值的非极大值抑制算法，在能够删除冗余检测的同时，召回更多的遮挡行人。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。