CN111738164A

CN111738164A - 一种基于深度学习的行人检测方法

Info

Publication number: CN111738164A
Application number: CN202010586392.XA
Authority: CN
Inventors: 陈凌霄; 廖宏; 肖杨; 杜奕霖; 杨程; 彭一峰; 黄铭斌
Original assignee: Guangxi Computing Center Co ltd
Current assignee: Guangxi Computing Center Co ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-02
Anticipated expiration: 2040-06-24
Also published as: CN111738164B

Abstract

本发明涉及行人检测***技术领域，具体涉及一种基于深度学习的行人检测方法。包括以下步骤：S1布置摄像机，获取当前分析场景的视频录像，对录像中的行人进行包围框标注，作为深度学习的训练数据集；S2根据训练数据集中行人在图像中各个位置的像素宽度和高度计算出相应的行人像素宽度矩阵W和行人像素高度矩阵H；S3利用矩阵W和矩阵H计算图像中各个区域位置的锚点框的尺度Scale和长宽比Ratio；S4进行深度学习Faster Rcnn模型训练；S5：获取每个行人的位置坐标和宽高，采用训练好的Faster Rcnn模型统计当前场景的总人数或局部密度。本发明提高了检测准确度，降低了误检。

Description

一种基于深度学习的行人检测方法

技术领域

本发明涉及计算机视觉和深度学习领域，尤其涉及安防监控、智能视频分析的行人检测***技术领域，具体涉及一种基于深度学习的行人检测方法。

背景技术

随着计算机科学技术的飞速发展，应用计算机视觉技术自动对监控场景中的行人目标进行智能分析，逐渐成为研究热点。通过行人检测，可以进行高密度状态报警，统计行人流量等，来取代传统人力监控值守。近些年来，深度学习神经网络取得了跨越式发展，逐步取代了传统目标检测方法。传统算法往往需要根据特定的领域进行手工设计特征，而且一般只能检测出某一类别。深度学习通过大规模样本集的监督学习，让深度神经网络自动学习目标特征，不但比传统算法精度更高而且还可以同时检测多类目标。目前基于深度学习的目标检测方法分为两类，一种是基于一步法的目标检测方法，其直接从图像回归出目标的位置坐标，例如SSD，YOLO等，但这类算法往往对小目标检测精度不高，会发生大量漏检；另外一种是基于两步法的目标检测方法，例如Faster-RCNN等，此类算法首先通过基础网络对图像提取特征图，然后通过RPN网络生成候选区域，再通过分类算法进行目标分类。多目标深度学习检测算法被称为通用目标检测算法，对于监控场景中的行人检测效果不佳。发明内容

为了解决上述问题，本发明提供了一种基于深度学习的行人检测方法，具体技术方案如下：

一种基于深度学习的行人检测方法，包括以下步骤：

S1：在需要分析的场景处布置摄像机，获取当前分析场景的视频录像，对录像中的行人进行包围框标注，并存储行人标注数据文件，作为深度学习的训练数据集；

S2：根据训练数据集中行人在图像中各个位置的像素宽度和高度计算出相应的行人像素宽度矩阵W和行人像素高度矩阵H；

S3：利用行人像素宽度矩阵W和行人像素高度矩阵H计算图像中各个区域位置的锚点框的尺度Scale和长宽比Ratio；

S4：在当前场景图像数据集进行深度学习Faster Rcnn模型训练，得到训练好的FasterRcnn模型的权重参数；

S5：对当前场景部署行人检测***，获取每个行人的位置坐标和宽高，采用训练好的Faster Rcnn模型统计当前场景的总人数或局部密度。

优选地，所述步骤S2包括以下步骤：

S21：读取本地存储的行人标注数据文件；

S22：创建行人像素宽度矩阵W和行人像素高度矩阵H，行人像素宽度矩阵W和行人像素高度矩阵H的维度分别对应摄像机图像的像素宽度和高度；

S23：若训练数据集图像中某个像素点为行人包围框的中心点，则将此包围框的像素宽度值和像素高度值分别写入到行人像素宽度矩阵W和行人像素高度矩阵H的相应位置；若行人像素宽度矩阵W和行人像素高度矩阵H相应位置已经存在数值，则计算写入值与存储值的加和平均值，然后再写入行人像素宽度矩阵W和行人像素高度矩阵H相应位置；

S24：检查上述步骤得到的行人像素宽度矩阵W和行人像素高度矩阵H中是否存在0值点，若存在，则进行相邻像素距离插值计算出当前位置的像素值，并写入到行人像素宽度矩阵W和行人像素高度矩阵H的相应位置。

优选地，所述步骤S3包括以下步骤：

S31：将行人像素宽度矩阵W和行人像素高度矩阵H进行n*n网格化，通过遍历训练数据集，得到当前分析场景中行人最大像素高度h1和最小像素高度h2,则n=h2/h1，其中n为向下取整得到的整数；

S32：计算行人像素宽度矩阵W每个网格内的平均像素值作为相应的训练RPN网络的尺度Scale；

S33：计算行人像素宽度矩阵W和行人像素高度矩阵H每个网格内的平均值分别为

和

,则每个网格内的长宽比Ratio为{1:

/

}。

优选地，所述步骤S4中在RPN网络训练过程中，通过RPN网络生成的候选框中心坐标来获取锚点框的尺度Scale和长宽比Ratio。

优选地，所述步骤S5包括以下步骤：

S51：利用摄像机sdk自动获取分析场景的实时视频流，解码获得分析场景的图像；

S52：加载训练好的Faster Rcnn模型的权重参数，将解码图像输入训练好的FasterRcnn模型得到卷积特征图；

S53：在卷积特征图上进行RPN网络推理，得到目标候选区域，再进行Fast RCNN分类和区域框回归得到目标分类分数和行人宽高。

本发明的有益效果为：对监控场景下目标行人检测效果有所提高，提高了检测准确度，降低了误检。

附图说明

图1为本发明的流程示意图；

图2为本发明锚点框的选取示意图。

具体实施方式

为了更好的理解本发明，下面结合附图和具体实施例对本发明作进一步说明：

如图1所示，一种基于深度学习的行人检测方法包括以下步骤：

S1：在需要分析的场景处布置摄像机，获取当前分析场景的视频录像，由于行人在场景中行走较慢，因此对视频进行每50帧的跳帧处理，从视频中抽取包含行人的图像，这些图像构成原始数据集。使用开源标注软件Labelimg对录像中的行人进行包围框标注，并存储行人标注数据文件，作为深度学习的训练数据集。

S2：根据训练数据集中行人在图像中各个位置的像素宽度和高度计算出相应的行人像素宽度矩阵W和行人像素高度矩阵H；包括以下步骤：

S21：读取本地存储的行人标注数据文件；

S3：利用行人像素宽度矩阵W和行人像素高度矩阵H计算图像中各个区域位置的锚点框的尺度Scale和长宽比Ratio；包括以下步骤：

S31：将行人像素宽度矩阵W和行人像素高度矩阵H进行n*n网格化，通过遍历训练数据集，得到当前分析场景中行人最大像素高度h1（近处目标）和最小像素高度h2（远处目标）,则n=h2/h1，其中n为向下取整得到的整数；

和

,则每个网格内的长宽比Ratio为{1:

/

}。

S4：在当前场景图像数据集进行深度学习Faster Rcnn模型训练，得到训练好的Faster Rcnn模型的权重参数；具体为：使用公开的VGG-16模型作为特征提取基础网络结构，使用其基础13个卷积层。在RPN网络训练过程中，通过RPN网络生成的候选框中心坐标来获取锚点框的尺度Scale和长宽比Ratio。如图2所示，其中矩形框1是由本方法生成的，将行人紧凑包裹。矩形框2-4是传统方法生成的矩形框，与实际行人大小相差较大。由于RPN网络训练过程中生成的候选框的像素宽高和分析场景中的行人像素高度相似，所以提高了RPN网络生成候选框的精度，进一步提高了最终的FasterRCNN行人检测精度。本步骤采用Faster RCNN端到端的反向传播算法训练最终模型。当迭代10万次后，保存训练好的FasterRcnn模型的权重参数到本地硬盘。

S5：对当前场景部署行人检测***，获取每个行人的位置坐标和宽高，采用训练好的Faster Rcnn模型统计当前场景的总人数或局部密度；包括以下步骤：

本实施例采用英特尔i7-8700k CPU以及英伟达1080Ti GPU进行训练，采用传统的Faster-rcnn神经网络算法与本发明的方法对CityPersons数据集进行检测并进行对比，结果如表1所示：

表1 对比结果

CityPersons数据集
		<i>Faster-rcnn</i>	76.3
本方法	82.6

计算方法：

1、针对某一个类别，设定IOU阈值，本实施例设定阈值为0.5，（意思是检测为人的目标的预测边界框和真实边界框的交并比要大于0.5，大于该阈值的认为是TP，其它的认为是FP，TP表示检测对了的正样本，FP表示检测错了的正样本，然后用测试样本中真实的正样本数量减去TP，就得到了FN，FN是漏检的正样本），统计出ground truth框的个数（计算召回率的分母）M和检测框个数N；IOU表示交并比，即目标预测框和真实框的交集和并集的比例。

2、从计算机内存初始化一个二维数组

（i=1,2,3,...,N.j=1，2），第一列存储目标分类的预测分数，第二列用于标记检测框是否为TP。

3、从计算机内存初始化precision（查准率），recall（召回率）结果矩阵

（i=1,2,3,...,N.j=1，2），第一列存储召回值，第二列存储对应的精度值。precision=TP/(TP+FP)；recall=TP/(TP+FN)。

4、对每张图像每个检测框与与ground Truth计算IOU，大于阈值的为TP，否则为FP，并赋值给数组

。

5、对二维数组

第一列预测分数进行从大到小进行排序（第二列也跟随第一列排序）。

6、对二维数组

逐行计算当前时刻的查准率和召回率，得到一组（

），赋值到

的第i行。

7、计算当前类别下的AP（Average Precision，平均精确度），具体是通过

绘制PR曲线，然后用插值法（0、0.1、0.2,...1）共11个插值点或者曲线上所有点进行插值求曲线下的面积即为

P-R曲线下的面积可以用于评估该曲线对应的模型的能力，也就是说面积越大模型性能越好。

本发明不局限于以上所述的具体实施方式，以上所述仅为本发明的较佳实施案例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。