CN112347967B

CN112347967B - 一种复杂场景下融合运动信息的行人检测方法

Info

Publication number: CN112347967B
Application number: CN202011290529.3A
Authority: CN
Inventors: 侯舒娟; 韩羽菲; 李海; 张钦; 宋政育; 武毅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2023-04-07
Anticipated expiration: 2040-11-18
Also published as: CN112347967A

Abstract

本发明公开了一种融合运动信息的复杂场景下的行人检测方法，由运动目标识别网络和行人检测网络两个支路构成，将视频输入网络，分别获得运动目标框和行人检测提议候选框，将两种候选框进行融合，然后根据框的面积大小分成两组，送入两个子网络，分别进行分类和回归，最终合并输出结果；本发明针对分辨率较低、行人在画面中尺寸较小的视频，相较于其他算法可以达到更高的检测率；本发明的行人检测网络是利用运动信息减少漏检，对动态与静态行人目标的检测效果都很好。

Description

一种复杂场景下融合运动信息的行人检测方法

技术领域

本发明属于目标检测技术领域，具体涉及一种复杂场景下融合运动信息的行人检测方法。

背景技术

行人是视频监控任务中的重要目标，行人检测也是计算机视觉研究的基础任务和关键技术之一，这种技术用于判断图像或者视频序列中是否存在行人并给予精确定位，在车辆辅助驾驶***、视频监控、机器人开发等计算机领域被广泛应用。

受存储资源、拍摄距离等众多因素的影响，一般实际中监控视频往往存在视频画质较差、行人目标在画面中所占比例较小、行人目标存在遮挡等问题，导致复杂场景下的行人检测技术在实际应用中仍然存在严重的漏检、误检等问题。随着机器学习技术和计算机视觉的发展，基于深度学习的目标检测技术被广泛的应用到行人检测任务中，取得了不凡的成绩，为复杂场景下的行人检测算法提供了思路。

2012年Lijun Guo等人在《Pedestrian detection Method of IntegratedMotion Information and APPearance Features》一文中提出一种结合运动信息与表观特征的行人检测方法，用于复杂场景下的行人检测任务，将运动信息融入到基于图像序列的对象分割算法中，通过获取更准确的分割结果来提高对候选检测窗口的检测准确率，然而该算法的精度要远低于R-CNN系列的行人检测网络，且计算量较大，在复杂场景下效果不理想。

2013年张芝英在《基于目标运动信息和HOG特征的行人检测的研究与实现》中设计了一种融合了目标运动信息的行人检测分类器，构成了一种HOG与SVM分类器进行行人检测的组合，然而该算法的检测模块精度不及R-CNN系列的行人检测网络，且运算速度较慢，用于运动信息提取的帧间差分法也还有一定的提升空间。

2016年Jianan Li等人在《Scale-aware Fast R-CNN for PedestrianDetection》一文中针对监控视频中的小尺寸行人目标提出了一种将大尺寸子网络和小尺寸子网络集成到同一框架中的网络，但是该网络是一种基于图片的行人检测网络，而且采用的Fast R-CNN网络精度较低，针对低分辨率的图片无法达到比较好的检测效果。

2016年Liliang Zhang等人在《Is Faster R-CNN Doing Well for PedesrtianDetection》一文中公开了一种让通用目标检测Faster R-CNN网络更适用于行人检测任务的改进网络，在分类模块对小尺寸行人目标有着更高的区分性，但是该网络仍然是一种基于图片的检测网络，在图片画质较低的情况下效果并不理想。

2018年Aixin Guo在《Multi-scale Pedestrain Detection based on DeepConvolutional Feature Fusion》中提出了一种基于深度卷积特征融合的多尺度行人检测方案，针对中小尺度行人特征不足的情况，将底层特征和高级语义特征相结合，并引入焦点损失函数来进行难样本挖掘来提高算法精度，该方案虽然在公开数据集中检测率得到了一定的提升，但是只适用于图片画质稍好的情况。

2019年夏金铭等人在《一种基于Faster R-CNN的行人检测算法》中引入了一种难样本挖掘策略，将复杂环境下的样本挑出并对权重进行调整，使训练更有侧重点，以提升模型的泛化性能，同样这也是一种基于图片的行人检测方案，该方案的查全率略有提升，但是仍然只适用于清晰图片的多尺度行人检测任务。

2019年李俊毅等人在《基于YOLO和GMM的视频行人检测方法》一文中提出了在行人检测任务中融合运动信息的方案，用于复杂光照条件下的行人检测任务，但是该方案采用的YOLO算法对小尺寸目标不敏感，而且采用了调低行人检测阈值、利用运动信息去除虚警的方式，导致该方法只适用于所有行人目标都是动态的情况，在有大量静态行人目标的场景下性能较差。

2019年王磊在《面向铁路行车安全的高精度行人检测算法研究与***设计》中公开了一种利用运动信息辅助边框筛选的检测框架，采用结构相似度来近似估计行人在视频帧间的运动信息，并将运动信息与网络检测结果的置信度得分结合对边框进行二次评估，这种方法的前提是考虑到大部分行人在相邻帧间存在运动位移，所以针对静止行人的情形存在弊端。

当前的复杂场景下的行人检测算法大多是针对复杂场景中的某一个问题进行改进，例如低分辨率、小尺寸目标等，在实际场景中，上述问题往往同时存在，针对某一问题的检测网络在实际应用中无法达到很好的效果。

现有的基于神经网络的复杂场景下的行人检测方法存在以下缺点：(1)一般方法是基于图片进行行人检测，需要测试图片分辨率较高，行人目标在画面中所占比例较大；(2)部分方法设计的行人检测网络虽然针对小尺寸目标进行改进，但是仍采用图片检测，且使用的原始目标检测网络精度较低，在低分辨率场景下检测效果较差；(3)2019年李俊毅等人的方法虽然是基于视频设计的，在进行行人检测时融合了运动信息，但是采用调低行人检测阈值、利用运动信息去除虚警的方式，导致该方法只适用于所有行人目标都是动态的情况，在有大量静态行人目标的场景下性能较差；(4)上述方法，都是针对复杂场景中行人目标尺寸较小或者视频场景分辨率较低之中的单一问题进行网络设计，而实际所获得的监控视频受各种因素限制通常存在上述所有问题。因此，目前尚没有性能更好的融合运动信息的复杂场景下的行人检测方案。

发明内容

有鉴于此，本发明的目的是提供一种复杂场景下融合运动信息的行人检测方法，可以解决复杂场景下低分辨率视频的行人检测问题，且对小目标敏感。

一种复杂场景下融合运动信息的行人检测方法，包括如下步骤：

步骤1、获取原始视频，处理得到图片序列；

步骤2、将所述图片序列通过RPN网络，获得目标检测提议候选框；

步骤3、将所述原始视频通过运动目标识别算法，获得运动目标框；

步骤4、将步骤3获得的运动目标框与步骤2中的目标检测提议候选框进行融合，得到全部提议候选框；

步骤5、将步骤4获得的全部提议候选框按照尺寸大小划分成两个群组，分别输入到两个神经网络分别进行分类和回归处理；

步骤6、将步骤5中两个神经网络输出的行人检测结果一并输出，得到带有行人目标框的视频。

较佳的，所述步骤1中，对图片序列中图片先进行缩放后输入卷积网络获取每张图片的特征图，然后再获得目标检测提议候选框，具体为：

a.利用九种不同尺寸的anchor boxes对图片中每一个像素点进行分类，判断是物体还是背景；

b.对anchors进行回归，得到分类的精准参数；

c.按照anchor的softmax分数进行排序，找到分类最优的2000个；

d.将anchor映射回原图；

e.利用NMS算法，对anchor进行排序，输出前256个提议候选框。

较佳的，所述步骤2和3同步执行。

较佳的，所述步骤3中，利用GMM算法对原始视频序列进行运动目标识别，获得运动目标框。

较佳的，所述步骤4中，利用非极大抑制值算法进行所述融合。

较佳的，所述步骤5中，将步骤4中获得的全部提议候选框按照面积大小进行排序，将面积排在前50％的图片划为第一群组，将面积排在后50％的划为第二群组。

较佳的，所述步骤5中，在每个神经网络中，先对提议候选框部分的特征图采用Faster-RCNN网络的ROI池化层进行归一化处理；将该部分特征图输入Faster-RCNN网络的全连接层与softmax层计算每个提议目标属于什么类别，利用只包含人物标签的数据集进行预训练；同时再次利用目标框回归获得每个提议目标的位置偏移量。

较佳的，所述步骤5中，所述两个神经网络的结构相同。

本发明具有如下有益效果：

本发明的目的在于克服现有复杂场景下行人检测方法的不足，提出一种融合运动信息的复杂场景下的行人检测方法。该方法由运动目标识别网络和行人检测网络两个支路构成，将视频输入网络，分别获得运动目标框和行人检测提议候选框，将两种候选框根据置信度通过非极大抑制值算法进行融合，然后根据框的面积大小进行排序，尺寸较大的框输入大尺寸子网络，尺寸较小的框输入小尺寸子网络，分别进行分类和回归，最终合并输出结果。该方法提供了一个适用于低分辨率视频且对小目标敏感的行人检测框架，解决了复杂场景下的行人检测问题；本发明针对分辨率较低、行人在画面中尺寸较小的视频，相较于其他算法可以达到更高的检测率；本发明的行人检测网络是利用运动信息减少漏检，对动态与静态行人目标的检测效果都很好；现有的一般方法是降低行人检测算法阈值，用运动信息去除虚警，对静态行人目标的检测效果较差；本发明的行人检测网络相较于现有的一般方法是在精度更高、对小目标更加敏感的通用目标检测架构中进行改进，而且根据行人目标尺寸区分子网络，在行人目标与监控设备距离较远的情况下可以达到更高的识别率。

附图说明

图1为本发明的方法流程图。

图2为本发明方法的召回率和准确率示意。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提出一种基于Faster-RCNN网络并融合运动信息的行人检测方法，适用于动态和静态行人目标的检测，该方法利用背景减除法获取目标运动信息，利用RPN网络获取目标提议候选框，将目标运动信息和RPN网络输出结果进行融合，根据候选框大小输入不同分类网络，最终获得行人目标位置，适用于复杂场景(视频分辨率低、行人像素高度小等)下的行人检测任务。

如图1所示，本发明的一种复杂场景下融合运动信息的行人检测方法，包括如下步骤：

步骤1、获取原始视频。

原始视频指监控摄像头在自然场景下拍摄的包含若干行人目标的视频，受存储资源、拍摄距离等因素的限制，视频的分辨率较低，行人目标的像素高度较小、行人目标可能被遮挡。后续将视频分别输入两条并行的支路，进行行人目标框的获取。

步骤2、通过RPN网络，获得目标检测提议候选框。

将原始视频输入第一条支路，处理为图片序列，通过M×N缩放后输入卷积网络获取每张图片的特征图，将这些特征图输入RPN网络，获取检测目标提议候选框，得到候选框在特征图中的坐标(x*，y*，w*，h*)，其中(x*，y*)为候选框左上角坐标，w*、h*分别为候选框的宽度和高度。

步骤3、通过运动目标识别模块，获得运动目标框。

将原始视频输入第二条支路，利用GMM运动检测算法，获取运动目标在当前帧的坐标(x，y，w，h)，其中(x，y)为运动目标框左上角坐标，w、h分别为运动目标框的宽度和高度。将该坐标进行M×N缩放后，投影到特征层，获取变换后的坐标(x*，y*，w*，h*)。

步骤4、将步骤(3)获得的目标框与(2)中的候选框利用非极大抑制值算法进行融合，得到全部提议候选框。

步骤5、将提议候选框按照尺寸划分，输入不同神经网络进行分类和回归。

将获得的全部提议候选框按照面积大小进行排序，将面积大的一部分输入大尺寸子网络，面积小的一部分输入小尺寸子网络。两个子网络的结构相同，只是处理的候选框尺寸不同，候选框与特征图在子网络中先经过ROI层进行池化，然后输入后续网络进行分类选出行人目标，并进行回归修正候选框位置，获得最终目标框。

步骤6、将两个子网络的行人检测结果一同输出，得到带有行人目标框的视频。

实施例：

(1)获取原始视频。

原始视频指监控摄像头在自然场景下拍摄的包含若干行人目标的视频，受存储资源、拍摄距离等因素的限制，视频的分辨率较低，行人目标的像素高度较小。考虑符合上述要求的数据集，选择香港中文大学的CUHK Square数据集。

(2)通过RPN网络，获得目标检测提议候选框。

该阶段包含以下步骤：

1)将视频处理为图片序列；

2)将图片序列进行缩放后依次输入卷积网络获取特征图；

3)特征图输入RPN网络；

b.对anchors进行回归，得到精准参数；

c.按照anchor的softmax分数进行排序，找到最优的2000个；

d.将anchor映射回原图；

e.利用NMS算法，对anchor进行排序，输出前256个。

据此，我们就得到了第一条支路的目标提议候选框。

(3)通过运动目标识别模块，获得运动目标框。

该阶段包含以下步骤：

1)利用GMM算法对视频进行运动目标识别；

a.初始化背景模型、均值、标准差和差分阈值；

b.设置阈值参数，根据均值是否在阈值范围内，判断当前像素属于前景还是背景；

c.更新参数，对背景进行学习更新；

d.重复步骤b.c.，直至算法停止，得到每帧中运动目标的位置信息。

2)将运动目标坐标进行缩放并投影到特征层；

(4)将步骤(3)获得的目标框与(2)中的候选框利用非极大抑制值算法进行融合，得到全部提议候选框。

(5)将提议候选框按照尺寸划分，输入不同神经网络进行分类和回归。

将步骤(4)中获得的提议候选框按照面积大小进行排序，将面积大的前50％输入大尺寸子网络，面积小的后50％输入小尺寸子网络。每个子网络的输入为原始的特征图和上一步输出的尺寸不同的提议候选框，送入ROI池化层进行尺寸归一化，计算出提议候选框特征图。将该部分特征图输入全连接层与softmax层计算每个提议目标属于什么类别，子网络利用只包含人物标签的数据集进行预训练，因此只输出person类及其概率向量；同时再次利用目标框回归获得每个提议目标的位置偏移量，用于回归更加精确的行人检测框。

本发明还对该方法的效果进行了仿真验证。

仿真在ubuntu18.04、CUDA10.0、cuDNN7.6、OpenCV3.4、PyTorch环境下进行，使用基于PyTorch框架的Faster R-CNN模型进行改进，基于Python实现。

使用Faster R-CNN作者给出的基于COCO训练的80类权重参数对多组视频进行测试，得到AP(Average Precision)为72.61％，而本发明优化后的Faster R-CNN网络的AP达到了77.63％，平均准确率提高了5.02％。与目前的先进算法，即2019年李俊毅等提出的基于YOLO和GMM的视频行人检测方法相比较，该算法得到的AP为74.82％，本算法的精度提升了2.81％。

以两个指标来评价实验结果，分别为Recall(召回率)、Precision(准确率)。如图2所示，Recall为成功检测出的行人个数P_d,t和总的行人个数P_d,t+P_n,t的比。Precision为成功检测出的行人个数P_d,t和所有检测个数P_d,t+P_d,f的比。

经多组复杂场景视频测试后，目前先进算法的召回率和准确率分别为0.77和0.51，本文算法的召回率和准确率分别为0.91和0.85。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种复杂场景下融合运动信息的行人检测方法，其特征在于，包括如下步骤：

步骤1、获取原始视频，处理得到图片序列；

步骤4、将步骤3获得的运动目标框与步骤2中的目标检测提议候选框进行融合，得到全部提议候选框；所述融合利用非极大抑制值算法进行；

2.如权利要求1所述的复杂场景下融合运动信息的行人检测方法，其特征在于，所述步骤1中，对图片序列中图片先进行缩放后输入卷积网络获取每张图片的特征图，然后再获得目标检测提议候选框，具体为：

b.对anchors进行回归，得到分类的精准参数；

c.按照anchor的softmax分数进行排序，找到分类最优的2000个；

d.将anchor映射回原图；

e.利用NMS算法，对anchor进行排序，输出前256个提议候选框。

3.如权利要求1所述的复杂场景下融合运动信息的行人检测方法，其特征在于，所述步骤2和3同步执行。

4.如权利要求1所述的复杂场景下融合运动信息的行人检测方法，其特征在于，所述步骤3中，利用GMM算法对原始视频序列进行运动目标识别，获得运动目标框。

5.如权利要求1所述的复杂场景下融合运动信息的行人检测方法，其特征在于，所述步骤5中，将步骤4中获得的全部提议候选框按照面积大小进行排序，将面积排在前50％的图片划为第一群组，将面积排在后50％的划为第二群组。

6.如权利要求5所述的复杂场景下融合运动信息的行人检测方法，其特征在于，所述步骤5中，在每个神经网络中，先对提议候选框部分的特征图采用Faster-RCNN网络的ROI池化层进行归一化处理；将该部分特征图输入Faster-RCNN网络的全连接层与softmax层计算每个提议目标属于什么类别，利用只包含人物标签的数据集进行预训练；同时再次利用目标框回归获得每个提议目标的位置偏移量。

7.如权利要求5所述的复杂场景下融合运动信息的行人检测方法，其特征在于，所述步骤5中，所述两个神经网络的结构相同。