CN112926500B

CN112926500B - 一种结合头部和整体信息的行人检测方法

Info

Publication number: CN112926500B
Application number: CN202110302808.5A
Authority: CN
Inventors: 陈勇; 谢文阳; 刘焕淋; 黄美永; 黄俊杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-09-20
Anticipated expiration: 2041-03-22
Also published as: CN112926500A

Abstract

本发明涉及一种结合头部和整体信息的行人检测方法，属于目标检测领域。首先，使用卷积神经网络提取目标的特征信息并获得多个具有不同分辨率以及激活程度的特征图。其次，使用这些特征图构建特征金字塔，通过融合不同子结构的输出分别为行人头部和整体检测提供有针对性的特征信息。然后，在行人检测的基础上添加头部检测分支并从对应的特征图中预测行人头部和行人整体。最后，使用改进的非极大值抑制算法融合两个分支的输出并得到最终结果。本发明充分利用了行人的特征信息，有效提升了遮挡行人的检测准确性。

Description

一种结合头部和整体信息的行人检测方法

技术领域

本发明属于目标检测领域，涉及一种结合头部和整体信息的行人检测方法。

背景技术

依据特征提取方式的差异可将行人检测方法分为两类：第一类为基于手工特征的检测方法，此类方法采用预先设计的特征提取算子获取特征信息；第二类为基于深度学习的检测方法，此类方法采用自学习的方式获取特征信息。

基于手工特征提取算子的检测方法：首先，使用滤波器获得图像中目标的关键点信息，然后，计算每个关键点与其相邻像素间的梯度值并生成统计直方图，最后，使用SVM或Adaboost等分类器进行特征分类获得图像中的行人信息。此类方法能捕获图像中目标的局部特征进而对其外观和形状进行描述，其优点在于计算较为简单且具有较好的检测准确性，但该方法对遮挡行人的检测效果不佳并且准确性远远无法满足实际要求。自然场景中存在大量干扰因素如遮挡和光照变化等，由于行人自身的特点导致其容易被场景中的物体遮挡且行人与行人之间也会出现遮挡情况，而传统方法捕获的关键点一般是对其外观形状的描述，同时行人自身姿态也会产生很大变化，这些都会导致此类方法的检测准确性出现大幅度下降。

基于深度学***且检测速度也越来越快，但遮挡造成的检测准确性降低的问题依然存在。

部分方法采用注意力机制使模型更多关注目标未被遮挡的有效部分，并引导模型对目标位置进行修正从而一定程度上减轻该问题造成的影响，但这种方式会增加计算量从而使检测器的实时性能下降。除此之外，一些方法采用特征金字塔结构使用不同大小的特征图进行检测，从而提升模型对不同尺度行人的检测准确性，但这类方法未能充分考虑网络浅层对小尺度目标的激活程度较高这一特点，因而对于检测准确性的提升依然不是十分明显。一般行人检测数据集使用矩形边界框标注行人，该方式会引入大量背景像素从而在训练阶段影响模型对行人特征的学习。为解决该问题，一些方法使用头部至底部的直线标注行人从而改善遮挡情况下的检测性能，但是这种方式仅对行人与行人之间的遮挡问题有一定改善，对于被场景中物体所遮挡的行人检测效果依然不理想。

发明内容

有鉴于此，本发明的目的在于提供一种结合头部和整体信息的行人检测方法。为了提升对遮挡行人的检测准确性，该方法同时检测行人头部和整体并将两者结合以增强行人的特征信息。另外，该方法通过引入网络浅层特征图的方式提升对小尺度目标的检测准确率。通过构建具有多层结构的特征金字塔并融合不同子结构输出的特征图从而分别为头部检测和整体检测提供针对性的特征信息。

为达到上述目的，本发明提供如下技术方案：

一种结合头部和整体信息的行人检测方法，该方法包括以下步骤：

S1：将数据集中的行人及其头部矩形边界框标签转换为中心点标签，同时对图像进行相应的预处理；

S2：基于深度卷积神经网络搭建特征提取模块获取用于检测的行人头部和整体特征图信息；

S3：构建包含头部检测和整体检测两个分支的检测模块，检测模块从特征图中预测中心点位置、高度和偏移量信息，生成头部边界框和整体边界框；

S4：对于获得的头部边界框和整体边界框，使用改进后的非极大值抑制算法将两者结合，同时滤除置信度较低的边界框从而得到最终的检测结果。

可选的，所述S1包含以下步骤：

S11：对训练图像进行随机比例的缩放，若图像大小小于预设尺寸则使用灰度像素点进行填充，若其大小大于预设尺寸则对边缘进行裁剪，同时对边界框标签进行位置修正；

S12：对训练图像进行随机水平翻转，同时修正边界框坐标；

S13：将图像从RGB颜色空间转换至HSV或HSL等颜色空间，同时对图像的亮度进行随机调整；

S14：根据标签信息计算获得其头部中心位置(x^h,y^h)和整体中心位置(x^b,y^b)，使用二维高斯函数G(·)分别生成头部中心点掩膜M^head和整体中心点掩膜M^body；

可选的，所述S2中，构建特征提取模块包括以下步骤：

S21：使用主干网络对图像进行特征提取，获得四张具有不同激活程度以及大小的特征图{p₁,p₂,p₃,p₄}；

S22：对特征图{p₁,p₂,p₃,p₄}使用卷积进行计算得到特征图{P₁,P₂,P₃,P₄}，对特征图P₄使用相同的卷积计算得到特征图P₅，从而构成具有五层结构的特征金字塔；

S23：对特征图P₂和P₃进行上采样使其大小与P₁保持一致，融合这三张特征图从而获得用于头部检测特征图F^head；对特征图P₄和P₅进行相同运算使其大小与P₃一致，融合特征图P₃、P₄和P₅得到用于行人整体检测的特征图F^body。

可选的，所述S3中，使用改进后的非极大值抑制算法将两者结合，同时滤除置信度较低的边界框从而得到最终的检测结果包含以下步骤：

S31：从头部特征图F^head中预测获得头部中心点C^head、高度H^head以及位置偏移量O^head，同时生成头部边界框B^head；

S32：从整体特征图F^body中预测获得整体中心点C^body、高度H^body以及位置偏移量O^body，同时生成整体边界框B^body。

可选的，所述S4中，执行检测结果筛选具体包括以下步骤：

S41：对于检测部分输出的行人整体边界框

其中

和

分别为边界框的左上角点和右下角点，基于边界框的高度h^b和宽度w^b计算获得行人的头部区域H_region；

S42：对于每一个行人整体边界框B^body，首先判断其头部区域H_region内是否存在头部边界框B^head，若存在则选取位于该区域中置信度s最高的头部边界框与之配对得到{B^body,B^head,s^body,s^head}；

S43：如果整体边界框的置信度较高则直接予以保留，如果行人边界框的置信度较低但存在与之配对的头部边界框，并且头部边界框的置信度较高，则依然保留该行人整体边界框。

本发明的有益效果在于：本发明考虑到行人的头部不易被遮挡这一特点，将其与行人检测进行结合从而提升检测准确性。通过引入网络浅层的特征信息，提升头部以及小尺度目标在特征图中的激活程度。另外，通过使用中心点对头部和整体进行标注减少背景像素的引入提升网络对行人特征的辨别能力。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的网络模型结构；

图2为模型的特征提取模块结构；

图3为模型的检测模块结构；

图4为本发明界定的行人头部区域示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

一种结合头部和整体信息的行人检测方法，基于卷积神经网络实现并使用中心点标注头部及整体。首先，构建具有多层结构的特征金字塔，通过融合该特征金字塔不同子结构输出的特征图从而为头部检测和整体检测提供有针对性的特征信息。然后，预测模块从特征图中预测目标中心点、高度以及偏移量，并分别生成行人头部边界框和整体边界框。最后，提出一种信息融合方法将行人头部信息和整体信息较好的结合。

使用主干网络提取头部和整体的特征信息并得到四张具有不同分辨率的特征图，对这四张特征图进行卷积运算，并对分辨率最小的特征图使用相同的卷积计算得到第五张特征图，从而构成具有五层结构的特征金字塔；融合该特征金字塔不同子结构的特征图从而得到分别用于头部检测和整体检测的特征图；检测模块包含头部检测和整体检测两个分支并分别从各自的特征图中预测得到中心点、高度以及偏移量信息，依据这些信息生成头部边界框和整体边界框；最后，将头部信息和整体信息进行结合对检测结果进行筛选并输出。

本发明提供一种结合头部和整体信息的行人检测方法，主要分为四部分，第一部分是对训练图像进行预处理，将原本的矩形边界框标签转换为中心点掩膜标签，同时采用缩放、旋转和水平翻转等方式扩充训练图像；第二部分是采用卷积神经网络进行特征提取、构建特征金字塔以及融合特征；第三部分是从特征图中预测行人头部和整体并生成相应的边界框；第四部分是将头部边界框和整体边界框结合，去除置信度较低的边界框并得到最终检测结果。

本发明提供的一种结合头部和整体信息的行人检测方法的网络模型结构如图1所示，具体包括以下步骤：

1、训练图像预处理

(1)根据数据集中自带的矩形边界框标签，计算获得头部中心(x^h,y^h)和整体中心(x^b,y^b)，使用高斯函数G(·)依据边界框宽和高的标准差{σ_w,σ_h}分别生成头部中心掩膜M^head和整体中心掩膜M^body。

(2)采用缩放、旋转和水平翻转等方式扩充训练图像，提升模型学习到的特征的有效性。

2、行人特征提取

(1)本发明特征提取模块的结构如图2所示，使用主干网络对处理后的图像进行特征提取，其输出四张具有不同分辨率的特征图{p₁,p₂,p₃,p₄}，对这四张特征图使用卷积计算增加通道间的关联性，同时将特征图扩充为五张并构成特征金字塔结构{P₁,P₂,P₃,P₄,P₅}。

(2)融合特征图{P₁,P₂,P₃}得到用于头部检测的特征图F^head，融合特征图{P₃,P₄,P₅}得到用于行人整体检测的特征图F^body。

3、头部和整体检测

本发明检测模块的结构如图3所示，共包含头部检测和整体检测两个分支。其从特征图F^head中预测获得头部中心点C^head、高度H^head以及位置偏移量O^head，从特征图F^body中预测获得整体中心点C^body、高度H^body以及位置偏移量O^body。根据这些信息分别生成行人的头部边界框B^head和整体边界框B^body。

4、检测结果筛选

(1)图4为本发明中界定的行人头部区域示意，对于检测部分输出的行人整体边界框

其中

和

分别为边界框的左上角点和右下角点，基于边界框的高度h^b和宽度w^b计算获得行人的头部区域H_region。

(2)使用非极大值抑制算法筛选行人整体边界框。对于每一个行人整体边界框B^body，首先判断其头部区域H_region内是否存在头部边界框B^head，若存在则选取位于该区域中置信度最高的头部边界框与之配对得到{B^body,B^head,s^body,s^head}，其中s为置信度。如果整体边界框的置信度较高则直接予以保留，如果行人边界框的置信度较低但存在与之配对的头部边界框，并且头部边界框的置信度较高，则依然保留该行人整体边界框。

本发明所设计的一种结合头部和整体信息的行人检测方法主要包含训练和测试两个阶段。

(1)训练阶段

训练阶段主要包括特征提取以及模型权重参数的更新。通过使用经过预处理的图像对模型进行训练，将模型预测得到的各项数值与标签真实值进行比较计算得到各项损失值，同时依据总损失值并使用梯度反向传播算法更新模型的权重参数。当模型迭代次数达到预设值后终止其训练过程并保存权重参数。

(2)测试阶段

测试阶段需要加载经过训练的模型权重参数，对于输入图像仅使用缩放的方式使其尺寸符合模型的输入所需。此时模型不再进行梯度反向传播而是直接将检测结果进行输出从而对图像中的行人进行检测并得到最终的边界框信息。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种结合头部和整体信息的行人检测方法，其特征在于：该方法包括以下步骤：

S4：对于获得的头部边界框和整体边界框，使用改进后的非极大值抑制算法将两者结合，同时滤除置信度较低的边界框从而得到最终的检测结果；

所述S1包含以下步骤：

S12：对训练图像进行随机水平翻转，同时修正边界框坐标；

S13：将图像从RGB颜色空间转换至HSV或HSL颜色空间，同时对图像的亮度进行随机调整；

所述S2中，构建特征提取模块包括以下步骤：

S23：对特征图P₂和P₃进行上采样使其大小与P₁保持一致，融合这三张特征图从而获得用于头部检测特征图F^head；对特征图P₄和P₅进行相同运算使其大小与P₃一致，融合特征图P₃、P₄和P₅得到用于行人整体检测的特征图F^body；

所述S3具体包括以下步骤：

S32：从整体特征图F^body中预测获得整体中心点C^body、高度H^body以及位置偏移量O^body，同时生成整体边界框B^body；

所述S4具体包含以下步骤：

S41：对于检测部分输出的行人整体边界框

其中

和