CN109376637A

CN109376637A - 基于视频监控图像处理的人数统计***

Info

Publication number: CN109376637A
Application number: CN201811197134.1A
Authority: CN
Inventors: 王磊; 孔得越
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-02-22
Anticipated expiration: 2038-10-15
Also published as: CN109376637B

Abstract

本申请实施例公开了基于视频监控图像处理的人数统计***，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练；将经过训练的三个卷积神经网络进行并联，三个并联的卷积神经网络的输出端均连接到同一个输出层；将经过缩放处理的三张图像均输入到每个卷积神经网络中进行检测，三个并联的卷积神经网络均将各自输出的带有人脸检测框的三张图像通过输出层映射到原始图像上，从而每一个人脸包括若干个检测框；采用非极大值抑制算法对每一个人脸的若干个检测框进行筛选，保留最优的人脸检测框，获得最终的人脸检测结果。

Description

基于视频监控图像处理的人数统计***

技术领域

本申请实施例涉及计算机视觉领域，尤其涉及基于视频监控图像处理的人数统计***。

背景技术

视频监控是利用计算机视觉技术对视频信号进行处理、分析和理解，在不需要人为干预的情况下，通过对序列图像自动分析对监控场景中的目标进行定位、识别和跟踪等。随着经济的发展，各种教学、办公、休闲场所越来越多，人群的活动越来越频繁，如何在特定区域内中自动对人员进行检测并统计人数是智能视频监控领域中的一个重要和热门课题。有效掌握实时的人数信息，对于人流控制，公共空间设计，意外事件控制等非常重要。比如统计课堂、会议等人员数量，不仅免除课堂、会议口头点名、手动签到等繁琐，也更利于学校对学生到课率情况的整体了解，学生在去自习前可以先查询哪些教室有空位来决定去哪自习，避免盲目的在教学楼寻找而耽误时间等等。

目前现有的监控视频人数统计***大致有两大类：一类方法是在特定出入口安装视频采集设备，对过往行人等进行目标检测，连续视频随时间出现目标增减计数这类应用场景在同时出入人数较少的情况下较为容易实现，而在没有特定出入口的开放式场所就无能为力了，同时对视野较大且人数过多的情况也很难做到精确计数。另一类人数监控***主要针对大视野，目标密集(百人甚至千人以上)场景，不做单个目标检测，而是做基于单帧的人群密度估计，也就是做非精确计数，因而也无法对连续视频中出现目标增减计数。

发明内容

本申请实施例的目的主要针对较大视野，且人数较多(百人以上)场景下，如大型教室、会议室等，监控视频做人数统计，且不限定视频背景是固定的，也就是说对带有云台装置的监控摄像头拍摄的背景变化的视频也同样可以做到统计整段视频内出现的人数。

为了解决上述技术问题，本申请实施例提出基于视频监控图像处理的人数统计***；

基于视频监控图像处理的人数统计***，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

构建人脸检测器模型：人脸检测器模型包括：包含第一卷积神经网络、第二卷积神经网络和第三卷积神经网络；三个卷积神经网络进行并联，三个并联的卷积神经网络的输出端均连接到一个输出层上；

训练三个卷积神经网络：对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练；

人脸检测：选取一帧待检测场景的图像，对所选取的图像按照设定尺寸进行放大处理和缩小处理；得到三张图像：经放大处理后的图像、经缩小处理后的图像和原始图像；将三张图像均输入到一个区域候选网络RPN后得到所有候选检测框，所有候选检测框分别送给所述的人脸检测器模型，输出每个检测框是人脸的概率，如果概率超过设定阈值则判定为人脸，并标记当前检测框，最终返回三张图像的检测结果，每一张输出图像均带有所有的人脸检测框；

带有人脸检测框的三张图像通过输出层映射到原始图像上，从而每一个人脸包括至少一个检测框；采用非极大值抑制算法对每一个人脸的所有检测框进行筛选，保留最优的人脸检测框，获得最终的人脸检测结果。

可选的，在一种实现方式中，对第M帧图像采用人脸检测器模型进行人脸检测，得到一个人脸列表，所述人脸列表包括：第M帧图像的所有人脸位置、所有人脸尺寸和所有人脸计数总和。

可选的，在一种实现方式中，将第M+N帧图像的人脸与第M帧图像的人脸进行匹配，N表示计数更新区间；以第M帧图像为参考图像，以第M+N帧图像为待匹配图像；判断第M+N帧图像的人脸与第M帧图像的人脸是否一一匹配，如果一一匹配，则认为人脸计数不变；否则，认为人脸数量有更新，更新人脸列表。

该实现方式的优势一方面在于：对于第M帧图像中未检测到的人脸，但是在第M+N帧中出现时，能够及时对人脸数量进行更新；第二方面在于对于拍摄角度会实时变化的摄像头，如果第M帧拍摄到待检测场景左侧的60％，而第M+N帧拍摄到待检测场景右侧的60％，则通过人脸匹配，可以有效实现人脸数量的更新。

可选的，在一种实现方式中，人脸进行匹配的步骤：

采用回归树ERT算法分别对第M帧图像和第M+N图像的人脸进行人脸对齐；

采用预训练的Facenet神经网络对人脸对齐后的第M帧图像和第M+N图像所有人脸图像进行特征提取，将所有人脸图像均映射到128维向量空间，得到人脸的特征向量；

将第M帧的人脸图像的人脸特征向量和第M+N帧人脸图像的人脸特征向量均输入到SVM分类器中，输出第M帧图像和第M+N帧图像的人脸匹配的结果。

可选的，在一种实现方式中，将第M帧的人脸图像的人脸特征向量和第M+N帧人脸图像的人脸特征向量均输入到SVM分类器中，输出第M帧图像和第M+N帧图像的人脸匹配的结果：

训练SVM分类器；

设首帧中得到的人脸列表为L＝{S₁…S_M}，其中，S_j为第j个人脸，M是人脸个数；

在第M+N帧得到的人脸列表为L’＝{S’₁…S’_N}，其中，N是人脸个数；

假设当前待匹配人脸为S_j＝(x,y,w,h)，其中，(x,y)代表人脸位置坐标，(w,h)代表人脸尺寸宽和高；那么在第M+N帧中只在(x+Δw,y+Δh)的范围内做匹配，Δw和Δh分别表示横向和纵向的扩展的范围尺寸。

可选的，在一种实现方式中，如果视频背景是运动的，则加大匹配范围参数(Δw,Δh)。

可选的，在一种实现方式中，用于训练SVM分类器所用样本的构造：

当前待匹配人脸S_j的正样本：来自实时采集的第M帧图像，按照S_j的位置和大小在第M+1和M+2帧截取同样位置和大小的矩形区域也作为正样本；通过添加高斯噪声、几何形变、翻转或剪切对三个帧的正样本进行调整，得到20个正样本；

当前待匹配人脸S_j的负样本为：随机抽取的第M帧图像中除S_j的其他20张人脸图片。

每N帧进行一次人脸列表和计数的更新，最终完成整个视频的人数统计。

可选的，在一种实现方式中，对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练的具体步骤为：

视频监控采集若干个待检测场景的整幅图像，基于人脸识别候选窗口将人脸从整幅图像中分割出来；根据人脸识别候选窗口的尺寸，将分割出来的人脸图像分类为：大尺寸人脸图像、中尺寸人脸图像和小尺寸人脸图像；

利用大尺寸人脸图像对第一卷积神经网络进行训练，得到训练好的第一卷积神经网络；

利用中尺寸人脸图像对第二卷积神经网络进行训练，得到训练好的第二卷积神经网络；

利用小尺寸人脸图像对第三卷积神经网络进行训练，得到训练好的第三卷积神经网络。

可选的，在一种实现方式中，卷积神经网络的训练正负样本集构建步骤：

以杰卡德相似系数Jaccard相似度定义正负样本，

正样本定义为与训练图像中的人脸框Jaccard相似度大于0.7图像区域；

负样本定义为与训练图像中的人脸框Jaccard相似度小于0.3图像区域。

对所有正样本按照尺寸的不同分为大、中、小三组，分别用于训练独立同结构的卷积神经网络CNN。

本申请实施例的有益效果是：

为了处理同一帧图像上出现的人脸大小差别过大的情况，对每一个待识别候选窗口用3个独立同结构的CNN进行识别，因为这3个CNN分别用3种尺度的人脸数据集训练得到的，因此结构虽然相同，但是权重参数不同，分别用于针对不同尺度的人脸。

把3个CNN多个层的输出中提取的卷积深度特征串联作为该候选窗口的特征，该特征同时包含大尺度上的高分辨率细节线索和模糊的低分辨率概貌线索。整幅图像的所有候选窗口的特征最终通过一个输出层，得到所有位置的响应结果。

解决了大视野，且人数较多场景下，背景固定或者连续变化的监控视频中的人数统计；如果有些摄像头的拍摄方向不是固定的，而是实时转动的，某一帧图像中对教室中人数拍摄不全，例如，某一帧仅拍摄到60％的人数，通过镜头的移动，画面逐渐扫过全部场景，则可以考虑利用第M帧的人脸检测，和与第M+N帧之间的人脸匹配，来实现逐步实现对全部场景中的人数统计；

如果摄像头是固定方向的，而第M帧图像中，A同学被挡住人脸，则利用第M帧与第M+N帧之间的人脸识别，来实现对两帧中不同人数的统计，从而避免对人数统计的疏漏；

本申请实施例的人脸检测器包含三个独立的卷积神经网络，在训练的过程中，学习到的参数是不一样的，可以有效提高人脸检测的准确度，尤其适合阶梯教室。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例的整体人脸检测与计数流程图；

图2为人脸检测流程图；

图3为用于人脸检测的数据集样本举例；

图4为单帧的人脸检测结果示例。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本申请实施例针对较大视野，且人数较多场景下，如大型教室、会议室等，背景固定或连续移动的监控视频，做人数统计。***整体框架包括两个模块：模块一完成单帧图像内的人脸检测，模块二完成相邻帧内，对检测到的人脸进行外观匹配，发现新出现目标，并累加入计数总值。其中，人脸检测器采用对预训练的CNN网络经过学习微调得到，用于学习的数据集为新建的实地应用场景的监控视频数据集。相邻帧的人脸匹配通过训练一组一对多的SVM分类器实现，所用特征则是对经过方向对齐之后的人脸采用预训练的FaceNet提取的特征。该方法可以实现人数较多，场景较大视频中的人数精确计数。

本申请实施例公开了一种针对较大视野，且人数较多(百人以上)场景下，如大型教室、会议室等，视频监控中的人数统计方法，且不限定视频背景是固定的，可以做到统计整段视频内出现的人数。

在考虑到在很多监控场合中，人的身体部分更容易被遮挡，所以本申请实施例采用人脸作为检测和计数目标，设计人脸检测与人数统计流程如图1所示，整体框架包括两个模块：

模块一：单帧图像内，以人脸为线索进行目标检测，并计数，具体步骤如下：

人脸检测器的设计：本申请实施例中要考虑的情况是在视野较大场景下，因此距离摄像头的远近目标大小的变化很大，而远距离的人脸普遍非常小，因此为不同尺度的人脸训练独立同结构的CNN网络。CNN网络的结构可以用现有的经典网络，如ResNet101。以网络多个层中提取的卷积深度特征串联作为有效的人脸描述子，该描述子能同时捕获大尺度上的高分辨率细节线索和模糊的低分辨率概貌线索。

人脸检测器的训练：对预训练的CNN网络进行学习微调，学习所用数据集来自某高校教室监控视频，图3为用于人脸检测的数据集样本举例；属于实地应用场景的监控视频数据集，共1000帧，为了使训练的网络适应各种复杂的场景条件，使训练样本具有多样性，因此我们采集的样本包含大量非标准姿态，且光照不均匀情况图2为手工标注好训练样本样例。

以Jaccard相似度定义正负样本，杰卡德相似系数是衡量两个集合的相似度一种指标。定义为即集合的交并比(IoU)。正样本定义为与训练图像中的真值(人脸框)Jaccard相似度大于0.7图像区域，负样本定义为与训练图像中的真值(人脸框)Jaccard相似度小于0.3图像区域。

人脸检测流程：从输入图像开始，对整幅图像进行以2为指数的倍数的尺度缩放，以保证尺度不变性，缩放后的图像送给每一个独立的CNN网络，得到每个分辨率下的响应图与检测框位置，该检测框作为候选人脸区域，最后将在不同尺度上得到的候选区域都映射回原始分辨率图像上，应用非极大值抑制(NMS)来剔除同一个目标上的重复检测框，获得最终检测结果。

在视频起始帧按照前述算法进行人脸检测，并得到一个人脸列表，包括人脸位置和尺寸，以及初始计数，人脸位置和尺寸留待模块二中做人脸匹配用。

模块二：相邻帧内，对检测到的人脸进行外观匹配，匹配不上的目标作为新发现目标，累加入总计数值。

以连续10帧作为一个计数更新区间，以首帧中得到的人脸作为参考，在第10帧中检测到的人脸作为匹配对象，判断与参考帧中的人脸是否相似，如果相似，则认为是同一个人，只更新该人脸的位置和尺寸，如果不匹配，则认为是新出现的人脸，计数加1，并更新人脸列表。

在人脸目标匹配的过程中，人脸的特征采用如下方法提取：先对所有检测到的人脸进行人脸对齐，采用回归树(ERT)方法，直接从一个稀疏子集估计人脸特征点坐标，实现人脸对齐。

直接采用预训练的Facenet来进行特征提取，将人脸图像最终映射到128维向量空间，即为该人脸的特征向量。

训练一组一对多SVM分类器，设首帧中得到的人脸列表为L＝{S₁…S_N}，另在第10帧得到人脸列表L’＝{S’₁…S’_M}，理论上需要算训练M×N个分类器，但是实际上在10帧的时间内(约0.3秒)人的移动范围不会很大，所以匹配工作只需要在一定范围内进行。假设当前待匹配人脸为S_m＝(x,y,w,h)，其中，(x,y)代表人脸位置(w,h)代表人脸尺寸，那么在参考帧中只在(x+Δw,y+Δh)的范围内做匹配。

进一步的，如果视频背景是运动的，可以适当加大匹配范围参数(Δw,Δh)。

用于训练SVM分类器所用样本的构造：S_m的标准正样本来自首帧，假设人脸在前后相邻两帧的移动可以忽略，因此我们按照S_m的位置和大小在第2，3帧截取同样的矩形区域也作为正样本。

进一步的，采用样本增强技术对3个正样本进行增强，通过添加高斯噪声、几何形变、翻转、剪切等样本增强技术，得到20个正样本。

负样本为除S_m的其他人脸，随机抽取的同一帧中其他20张人脸图片。

按照上述步骤，每10帧进行一次人脸列表和计数的更新，最终完成整个视频的人数统计。

测试环境：本申请实施例在Ubuntu16.04环境，Tensorflow1.4框架下Python编程测试。

实验结果：如图4所示，为单帧人脸检测结果示例。

人脸检测结果的度量：真阳性检测结果即为检测正确的人脸(True Positive)，要求结果满足预测框跟真值框(Ground Truth)的Jaccard相似度大于0.5，整体检测结果用AP(平均精确度)度量，即用真阳性结果与实际人脸数的比值：

其中J(k,k_truth)表示真值与预测假阳之间的交并比。

在发明本实施例中，应用本申请实施例方法进行监控视频中的人数统计，在人数较少情况下(单帧中少于30人)，人数统计精度可以达到100％，在人数较多(单帧超过100人)，可以达到90％以上。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于视频监控图像处理的人数统计***，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

2.如权利要求1所述的基于视频监控图像处理的人数统计***，其特征是，对第M帧图像采用人脸检测器模型进行人脸检测，得到一个人脸列表，所述人脸列表包括：第M帧图像的所有人脸位置、所有人脸尺寸和所有人脸计数总和。

3.如权利要求1所述的基于视频监控图像处理的人数统计***，其特征是，将第M+N帧图像的人脸与第M帧图像的人脸进行匹配，N表示计数更新区间；以第M帧图像为参考图像，以第M+N帧图像为待匹配图像；判断第M+N帧图像的人脸与第M帧图像的人脸是否一一匹配，如果一一匹配，则认为人脸计数不变；否则，认为人脸数量有更新，更新人脸列表。

4.如权利要求3所述的基于视频监控图像处理的人数统计***，其特征是，人脸进行匹配的步骤：

5.如权利要求4所述的基于视频监控图像处理的人数统计***，其特征是，将第M帧的人脸图像的人脸特征向量和第M+N帧人脸图像的人脸特征向量均输入到SVM分类器中，输出第M帧图像和第M+N帧图像的人脸匹配的结果：

训练SVM分类器；

6.如权利要求5所述的基于视频监控图像处理的人数统计***，其特征是，如果视频背景是运动的，则加大匹配范围参数(Δw,Δh)。

7.如权利要求5所述的基于视频监控图像处理的人数统计***，其特征是，用于训练SVM分类器所用样本的构造：

当前待匹配人脸S_j的负样本为：随机抽取的第M帧图像中除S_j的其他20张人脸图片；

8.如权利要求1所述的基于视频监控图像处理的人数统计***，其特征是，对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练的具体步骤为：

9.如权利要求8所述的基于视频监控图像处理的人数统计***，其特征是，卷积神经网络的训练正负样本集构建步骤：

以杰卡德相似系数Jaccard相似度定义正负样本，

10.如权利要求9所述的基于视频监控图像处理的人数统计***，其特征是，对所有正样本按照尺寸的不同分为大、中、小三组，分别用于训练独立同结构的卷积神经网络CNN。