CN110929578A

CN110929578A - 一种基于注意力机制的抗遮挡行人检测方法

Info

Publication number: CN110929578A
Application number: CN201911021480.9A
Authority: CN
Inventors: 周大可; 宋荣; 王栋; 杨欣
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-03-27
Anticipated expiration: 2039-10-25
Also published as: CN110929578B

Abstract

本发明公开一种基于注意力机制的抗遮挡行人检测方法，步骤是：得到行人图片的多层卷积特征，以新型特征金字塔的结构融合，生成包含语义信息和细节信息的新特征层；采用k均值聚类得到预设的行人边界框的尺寸；预测所有行人边界框的回归偏置和分类置信度；计算交叉熵损失函数和改进的自适应遮挡感知回归损失函数，进而得到整体损失函数；迭代优化，不断训练得到检测模型；将待检测图片送入检测模型中，采用非极大值抑制法去除重叠程度高的框，最终得到检测结果。此种方法可改善对遮挡行人的检测能力，具有更高的检测精度和鲁棒性。

Description

一种基于注意力机制的抗遮挡行人检测方法

技术领域

本发明属于计算机视觉、模式识别、深度学习等领域，特别涉及一种在复杂的交通场景图像或视频帧中检测行人位置的方法。

背景技术

随着人工智能热潮的兴起和大数据时代的到来，基于图像和视频理解世界的计算机视觉技术得到了蓬勃的发展。行人检测作为通用目标检测的一个重要分支，在智能交通，自动驾驶，视频监控，智能机器人等领域都有着重要的应用。此外，检测精度高，鲁棒性好的行人检测算法是计算机视觉中许多高级任务的前提和基础，如行人姿态识别，行为分析，多目标跟踪以及行人重识别等。因此，如何提升行人检测算法的性能是计算机视觉技术实际应用过程中亟待解决的问题。

传统的行人检测方法通过手工设计特征获得行人特征描述子，同时利用滑窗定位行人位置，提取每个窗口的特征送入预先训练的分类器中判断是否为行人，代表方法有梯度方向直方图法，聚集通道特征法，形变部件模型法等。由于手工设计特征表达能力不足，此类方法仅能应对较为简单的场景。近年来，随着计算设备运算能力的不断提高，大规模卷积神经网络强大的特征提取和表达能力为计算机视觉带来了新的突破。利用卷积神经网络代替手工设计提取特征逐渐成为目标检测方法的主流。根据检测机制的不同，分为FasterR-CNN为代表的基于区域建议的检测方法和以YOLO(You Only Look Once)，SSD(SingleShot Multibox Detector)为代表的基于回归的检测方法。前者主要思路是先通过一个区域建议网络生成可能存在待检测物体的前景区域，然后针对提取出来的候选区域进一步判断类别和回归边界框的位置，是一个由粗到精的过程。后者主要思路是用统一的卷积神经网络直接回归出边界框的位置以及类别，本质上是一个密集采样的过程。通常基于区域建议的检测方法具有更高的检测精度，但检测速度较慢，而基于回归的检测方法则刚好相反。

在复杂的交通场景环境中，待检测的行人相尺寸相对于场景来说较小，通用的特征提取主干网络由于过大下采样倍数会给行人检测带来负面影响。此外，遮挡也是影响行人检测算法性能的重要原因之一。常见的遮挡现象包括类间遮挡和类内遮挡。类间遮挡指行人被其它类别的物体遮挡，如车辆，建筑，树木等，类内遮挡指行人之间的相互遮挡，在实际街道等场景中更为常见。上述基于卷积神经网络的行人检测代表方法在严重遮挡情况下检测性能急剧下降，主要原因在于遮挡会导致行人局部特征的缺失，同时引入不属于行人的干扰信息，而神经网络无法自主区分不同特征的重要程度；此外，常见检测算法的损失函数也未考虑遮挡程度对位置候选框的影响，尤其在行人十分密集的情况，大量遮挡候选框会错误引导梯度的更新，最终影响检测的性能。

发明内容

本发明的目的，在于提供一种基于注意力机制的抗遮挡行人检测方法，其可改善对遮挡行人的检测能力，具有更高的检测精度和鲁棒性。

为了达成上述目的，本发明的解决方案是：

一种基于注意力机制的抗遮挡行人检测方法，包括如下步骤：

步骤1，将交通场景的行人图片经过数据预处理之后送入到由残差模块构成的主干网络中提取特征，得到尺度不断减小的多层卷积特征；

步骤2，将主干网络提取的多层卷积特征以特征金字塔的结构融合，即依次将深层的特征图上采样后与浅层特征相加，从而生成5个包含语义信息和细节信息的新特征层；

步骤3，将未经数据预处理的行人图片标签信息采用k均值聚类的方式得到预设的行人边界框的尺寸；

步骤4，将步骤3得到的预设的行人边界框密集分布到步骤2融合生成的多层卷积特征图上，然后通过注意力机制自适应调节不同维度卷积特征的权重，进而预测所有行人边界框的回归偏置和分类置信度；

步骤5，根据步骤4预测的行人边界框的分类置信度和回归偏置分别计算交叉熵损失函数和改进的自适应遮挡感知回归损失函数，进而得到整体损失函数；端到端地对整个网络进行迭代优化，不断训练得到检测模型；

步骤6，将原始待检测图片送入步骤5生成的算法模型中，滤除置信度低于阈值θ₁的预测框，对剩下的预测框采用非极大值抑制法去除重叠程度高于预设的框，最终得到检测结果。

上述步骤1中，数据预处理包括对行人图片进行裁剪，对每张图片随机选择5个遮挡率小于80％的行人，以其边界框中心点为界，随机选择上下左右的其中一侧进行裁剪，裁剪比例不大于宽和高的50％，再以黑边padding到原本图片尺寸。

上述步骤1中，主干网络的结构是：从conv4开始保持网络下采样倍数不变，最大下采样倍数为16，并保持conv5、conv6的通道数为1024，与conv4一致；conv5、conv6中采用空洞卷积。

上述步骤2中，特征融合的方法是：得到卷积特征图c2～c6之后，对于尺度一致的c4～c6，将c6通过1×1卷积，特征通道数与c5保持一致，然后将二者对应元素相加，相加后的特征图再通过3×3卷积生成p6，p6特征图的通道数为256；同理生成p4和p5；p3的生成方式与FPN中一致；将c2特征层也进行融合，生成p2负责小尺度行人的检测，最终生成的融合特征层为p2～p6。

上述步骤3中，k均值聚类的距离度量公式为：

其中，anchor_j表示行人数据集中第j个行人的全身边界框，m_i表示第i个聚类中心所代表的边界框。

上述步骤4的具体内容是：

步骤4a，对于步骤2中融合生成的每个卷积层，利用通道注意力机制自主选择重要的通道特征，利用权重向量重新加权后经过卷积神经网络得到每个预设边界框的分类置信度；

步骤4b，对于步骤2中融合生成的每个卷积层，利用空间注意力机制自适应选择重要的区域特征，利用空间掩膜重新加权后经过卷积神经网络得到每个预设边界框的回归偏置；

步骤4c，利用步骤4b生成的空间掩膜和行人数据集的全身框标签和可见区域标签计算掩膜损失函数L_mask。

上述步骤4a中，通道注意力机制分别通过全局平均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量，然后通过长度为16的全连接层将两个权重向量压缩，再通过长度为256的全连接层将两个权重向量拉伸为原来的长度，最终将拉伸后的两个权重向量相加之后乘到原来的融合卷积特征中。

上述步骤4b中，空间注意力机制首先通过4个通道数为256的3×3卷积核对于每个融合生成的特征层卷积，再通过通道数为1的3×3卷积核生成掩膜，此过程中均保持卷积前后特征图的尺寸不变；然后将掩膜中的每个元素取e为底后乘回原来的特征图；此过程同时计算掩膜中每个元素与利用行人标签定义的掩膜标签的损失函数L_mask，其形式为：

其中，m_w和m_h是掩膜的宽和高，i表示掩膜中第i个元素，m_i表示掩膜中第i个元素的真值，m_i'表示掩膜第i个位置的预测值。

上述步骤5中，最终得到的整体损失函数L_all形式为：

L_all＝L_cls+k₁L_reg+k₂L_mask

其中，L_cls为交叉熵损失函数，L_reg为自适应遮挡感知回归损失函数，L_mas ^k为掩膜标签的损失函数；k₁,k₂分别为调节各部分损失函数的权重。

上述步骤6中，采用非极大值抑制法去除重叠程度高于预设的框，具体做法为：将所有剩下的行人检测框按分类置信度由高到低排列，用置信度最高的预测框分别与其余的预测框计算IOU，若IOU大于预设值，则将此预测框去除，一轮之后在剩余的预测框中选择置信度次高的重复以上过程，最终剩下的行人预测框就是检测结果。

采用上述方案后，本发明与现有技术相比，具有以下技术效果：

(1)本发明针对复杂交通场景下行人尺寸相对于场景较小的特点设计了专门的特征提取主干网络和特征融合方式，使得生成的卷积特征图具有更高的分辨率；同时配合新的特征融合方式避免具备过大感受野的深层特征图与浅层特征图融合时引入噪声的问题；

(2)本发明通过在卷积预测中的分类支路加入通道注意力机制使网络从通道维度自主选择重要的特征，在回归支路加入有监督的空间注意力机制来自适应选择需要关注的场景区域，从而缓解由于遮挡带来无关特征的干扰和行人局部特征缺失的问题；

(3)本发明利用行人可见边界框与预测框的交叠程度衡量预测框被遮挡的程度，从而自适应地调节预测框在总的回归损失函数中的权重，更好地引导梯度的更新和模型的训练。

附图说明

图1是本发明的流程图；

图2是本发明的整体网络结构图；

图3是本发明中空间注意力子分支监督信息标签的设计示意图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示，本发明提供一种基于注意力机制的抗遮挡行人检测方法，具体步骤如下：

步骤一：首先将行人图片数据预处理采用通用的图片缩放、水平翻转、随机平移等数据增强方法，扩充数据的多样性。此外，还包括专为遮挡行人设计的裁剪方法，具体做法是：对每张图片随机选择5个遮挡率小于80％的行人，以其边界框中心点为界，随机选择上下左右的其中一侧进行裁剪，裁剪比例不大于宽和高的50％，再以黑边padding(填充边缘)到原本图片尺寸。这样原本每张图片生成5张模拟的被遮挡的街道场景图，丰富了数据集中遮挡场景图片的数量，从而使算法更充分地学习遮挡情况。

针对行人尺寸在交通场景图片中大都占比较小的问题，在常用的深度残差网络ResNet50的基础上也针对行人的特点进行了改进，基本思路是减小网络下采样倍数的同时保持网络合理的参数量计算量和足够的感受野，使其更有利于小尺度行人的检测，具体做法是：首先从conv4开始保持网络下采样倍数不变，最大下采样倍数为16，为了缓解大尺寸特征图带来的计算压力，保持conv5，conv6的通道数为1024，与conv4一致。此外，下采样倍数的减少会导致网络感受野不够，故将conv5，conv6中3×3卷积换成空洞卷积。这样生成的卷积特征图c2～c6的下采样倍数分别为4,8,16,16,16，从而保持更大的分辨率。

步骤二：得到卷积特征图c2～c6之后，为了更好地利用深层特征的语义信息和浅层的细节信息，需要将深层特征与浅层特征融合。与步骤一中设计的主干网络相配合，本发明采用新的特征融合方式：选择主干网络本身的c2～c6进行融合，对于尺度一致的c4～c6，将c6通过1×1卷积，特征通道数与c5保持一致，然后将二者对应元素相加，相加后的特征图再通过3×3卷积生成p6，无须上采样，p6特征图的通道数为256。同理生成p4和p5。p3的生成方式与FPN中一致。为了进一步提高交通场景中小尺度行人的检测效果，将更浅、分辨率更高的c2特征层也进行融合，生成p2负责小尺度行人的检测，最终生成的融合特征层为p2～p6。与FPN相比，本发明中的特征融合完全采用主干网络生成的特征层，且自底向上的特征人融合一直进行到下采样倍数仅为4的C2层，分辨率更大。

步骤三：得到融合特征层p2～p6后，需在其每个特征值位置处生成一系列预设的不同尺寸与宽高比的边界框，在此基础上网络回归位置偏置来使预设边界框不断逼近真实边界框。本发明采用k均值聚类的方法得到预设边界框的宽高，具体做法是：首先统计行人数据集中所有行人真实框的宽高，为了避免聚类过程中占据多数的中等尺寸行人真实框将少数小尺寸和极大尺寸的行人框淹没，依据框的高度h将所有框划分为5份。为了方便计算重叠程度IOU，将行人真实框的中心点设为(0,0)，然后利用k均值聚类生成9个预设的边界框，最终共生成45个不同大小与比例的预设边界框，分别配置到p2～p6的5个融合特征层上。k均值聚类的距离度量公式为：

步骤四：设置好预设边界框之后，在每个融合特征层之后接分类支路和回归支路分别用来预测每个预设边界框的分类置信度和回归偏置。

对于分类支路，利用通道注意力机制自适应调节特征层不同通道的权重，使得网络能够自主学***均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量l_avg和l_max，其长度为256，然后通过长度为16的全连接层将两个权重向量压缩为长度16，再通过长度为256的全连接层将两个权重向量拉伸为原来的长度，最终将拉伸后的两个权重向量相加之后得到最终的权重向量l_add，通过sigmod函数将权重向量的每个元素限制在0～1之间，最后乘到原来的融合卷积特征中。然后将通道注意力机制调整过的特征经过5个卷积核大小为3×3，通道数为256的卷积层，最终接一个通道数为2A的3×3卷积，最终输出每个预设边界框的分类置信度，其维度为w_f×h_f×(A×2)，其中w_f，h_f分别输出特征层的宽高，A为每个融合特征层上预设的边界框个数，本发明中设为9。

对于回归支路，利用空间注意力机制自主调节特征层不同空间区域的权重，使网络重点关注行人未遮挡部位的特征，同时降低其它遮挡特征的影响。空间注意力机制的结构如图2所示，首先通过4个通道数为256的3×3卷积核对于每个融合生成的特征层卷积，再通过通道数为1的3×3卷积核生成掩膜，此过程中均保持卷积前后特征图的尺寸不变。然后将掩膜中的每个元素通过sigmod函数限制到0～1之间，再取e为底使其范围在1～e之间，最终乘回原来的特征图，保证在保留图片背景区域特征的同时强化行人区域的特征。然后与分类支路类似，将空间注意力机制调整过的特征经过5个卷积核大小为3×3，通道数为256的卷积层，最终接一个通道数为4A的3×3卷积，最终输出每个预设边界框的回归偏置dx,dy,dw,dh，其维度为w_f×h_f×(A×4)。w_f，h_f，A的含义与分类支路一致。

同时利用行人数据集中行人全身框的标签和可见区域边界框的标签定义掩膜的标签。掩膜标签的定义方式为：将图片中原本的背景区域元素值设为0，存在行人的区域以其边界框为界元素值设为0.8，若行人局部区域是可见的，则其元素值设为1，掩膜标签示意图如图3所示。得到掩膜标签后就可以计算掩膜中每个元素与掩膜标签的损失函数L_mask，其形式为：

其中，m_w和m_h是掩膜的宽和高，i表示掩膜中第i个元素，m_i表示掩膜中第i个元素的真值，m_i'表示掩膜第i个位置的预测值。从而通过标签信息指导空间注意力机制不断学习，使生成的掩膜更加有效的指导特征的选择。

步骤五：步骤四得到所有预测框的分类置信度和回归偏置之后，对分类置信度计算交叉熵损失函数，其形式为：

其中，i表示第i个行人预测框，N表示所有的预测框的数目，p_i'表示预测框包含行人的概率，p_i为对应行人标签真值，一般为1。

依据得到的回归偏置dx,dy,dw,dh计算所有行人预测框的真实位置x,y,w,h。判断每个预测框是否为正例，即包含行人。具体判断方式为：对每个行人框真值计算其与所有预测框的重叠程度IOU，IOU最大的预测框为正例；同时设定IOU阈值θ₂，本发明中设为0.5。若剩余的预测框与某个行人框真值的IOU大于θ2，则其为正例。仅对判断为正例的行人预测框计算改进的自适应遮挡感知损失函数，其形式为：

其中，i∈pos表示第i个判断为正例，x,y,w,h为预测行人框的中心点坐标和宽高。t(i)s'表示第i个预测框的第s个参数，t(i)s表示第i个预测框对应的行人标签真值的第s个参数。b_pred(i)表示第i个预测框，b_gtvis(i)表示第i个预测框对应的行人可见区域真值框。将第i个预测框与其对应的行人可见区域真值取交集之后再除以可见区域真值框，此项可用来衡量预测框与行人可见区域的遮挡程度。通过在传统的smooth_L1回归损失函数之前增加此项可以自适应的对遮挡较少的预测框更高的权重，对遮挡较多的预测框较低的权重，从而更好的引导梯度的更新，避免大量遮挡预测框将正确的更新方向误导。

最终本发明算法整体损失函数形式为：

L_all＝L_cls+k₁L_reg+k₂L_mask

其中，L_cls为上文提到的分类损失函数，L_reg为上文自适应遮挡感知损失函数，L_mask为上文提到的掩膜损失函数。k₁，k₂分别为调节各部件损失函数的权重，根据经验值均设为1。通过上述整体损失函数L_all端到端的对整个网络各部分参数进行迭代优化，优化方法采用随机梯度下降法，初始学习率为0.001，每隔5个epoch损失函数不下降则将学习率缩小为原来的0.1，经过100个epoch左右的迭代训练得到最终的算法模型。

步骤六：将原始待检测图片送入步骤五生成的算法模型中，设定阈值θ₁来滤除置信度较低的预测框，此值可根据实际检测效果或经验通过调试确定，本发明中设为0.4，若预测框的分类置信度低于0.4，则舍弃此结果。对剩下的预测框采用非极大值抑制法去除重叠程度较高的框，非极大值抑制的具体做法为：将所有剩下的行人检测框按分类置信度由高到低排列，用置信度最高的预测框分别与其余的预测框计算IOU，若IOU大于0.5，则将此预测框去除，一轮之后在剩余的预测框中选择置信度次高的重复以上过程。最终剩下的行人预测框就是算法的检测结果。

综合以上，本发明针对基于卷积神经网络的行人检测算法存在遮挡情况下检测效果不佳的问题，提出一种基于注意力机制的抗遮挡行人检测算法，根据行人检测任务特点，设计专门的特征提取主干网络和融合机制，引入注意力机制自主调节不同卷积特征的权重，同时自适应的选择高质量的位置预测框计算回归损失函数，从而改善了对遮挡行人的检测能力，具有更高的检测精度和鲁棒性，这对于行人检测的研究与实际应用的开发均具有重要的理论和实际意义。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于注意力机制的抗遮挡行人检测方法，其特征在于，包括如下步骤：

步骤4，将步骤3得到的预设的行人边界框密集分布到步骤2融合生成的多层卷积特征图上，然后通过多重注意力机制自适应调节不同维度卷积特征的权重，进而预测所有行人边界框的回归偏置和分类置信度；

2.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤1中，数据预处理包括对行人图片进行裁剪，对每张图片随机选择5个遮挡率小于80％的行人，以其边界框中心点为界，随机选择上下左右的其中一侧进行裁剪，裁剪比例不大于宽和高的50％，再以黑边填充边缘到原本图片尺寸。

3.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤1中，主干网络的结构是：从conv4开始保持网络下采样倍数不变，最大下采样倍数为16，并保持conv5、conv6的通道数为1024，与conv4一致；conv5、conv6中采用空洞卷积。

4.如权利要求3所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤2中，特征融合的方法是：得到卷积特征图c2～c6之后，对于尺度一致的c4～c6，将c6通过1×1卷积，特征通道数与c5保持一致，然后将二者对应元素相加，相加后的特征图再通过3×3卷积生成p6，p6特征图的通道数为256；同理生成p4和p5；p3的生成方式与FPN中一致；将c2特征层也进行融合，生成p2负责小尺度行人的检测，最终生成的融合特征层为p2～p6。

5.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤3中，k均值聚类的距离度量公式为：

6.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤4的具体内容是：

7.如权利要求6所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤4a中，通道注意力机制分别通过全局平均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量，然后通过长度为16的全连接层将两个权重向量压缩，再通过长度为256的全连接层将两个权重向量拉伸为原来的长度，最终将拉伸后的两个权重向量相加之后乘到原来的融合卷积特征中。

8.如权利要求6所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤4b中，空间注意力机制首先通过4个通道数为256的3×3卷积核对于每个融合生成的特征层卷积，再通过通道数为1的3×3卷积核生成掩膜，此过程中均保持卷积前后特征图的尺寸不变；然后将掩膜中的每个元素取e为底后乘回原来的特征图；此过程同时计算掩膜中每个元素与利用行人标签定义的掩膜标签的损失函数L_mask，其形式为：

9.如权利要求8所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤5中，最终得到的整体损失函数L_all形式为：

L_all＝L_cls+k₁L_reg+k₂L_mask

10.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法，其特征在于：所述步骤6中，采用非极大值抑制法去除重叠程度高于预设的框，具体做法为：将所有剩下的行人检测框按分类置信度由高到低排列，用置信度最高的预测框分别与其余的预测框计算IOU，若IOU大于预设值，则将此预测框去除，一轮之后在剩余的预测框中选择置信度次高的重复以上过程，最终剩下的行人预测框就是检测结果。