CN112825116B

CN112825116B - 监控视频图像人脸检测和追踪方法、装置、介质及设备

Info

Publication number: CN112825116B
Application number: CN201911138222.9A
Authority: CN
Inventors: 周军; 王洋
Original assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2024-04-09
Anticipated expiration: 2039-11-20
Also published as: CN112825116A

Abstract

本发明公开了一种监控视频图像人脸检测和追踪方法、装置、介质及设备，属于模式识别领域。该方法包括：从监控视频中获取当前帧图像；判断当前帧图像的前一帧图像是否检测出人脸框，若否，使用训练好的人脸检测CNN对当前帧图像进行人脸检测，若是，执行以下步骤：在当前帧图像上设置与前一帧图像的人脸框大小和位置相同的人脸框，并扩大设定倍数，得到追踪区域；将追踪区域以设定的步长进行有重叠分块，得到若干待检测区域，待检测区域的大小与人脸框的大小相同；将待检测区域输入训练好的人脸追踪CNN，判断待检测区域是否是人脸区域。本发明对包含多人脸、高分辨率的视频监控图像进行实时的人脸区域抓取，具有较好的人脸检测和追踪效果。

Description

监控视频图像人脸检测和追踪方法、装置、介质及设备

技术领域

本发明涉及模式识别领域，特别是指一种监控视频图像人脸检测和追踪方法、装置、计算机可读存储介质及设备。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)，也简称为网络，是一类模式识别方法。该方法旨在使用卷积的方法对图像等数据进行表征量化，进而完成分类或是回归任务。该方法目前在图像分类、语音识别等方向表现出了优异的性能。

随着CNN在模式识别领域获得了较大的进步，尤其在图像人脸识别领域，识别效果可以远超人眼的辨别效果。由于CNN可以自适应的获得图像的特征并且可以获得较好的分类效果，所以基于CNN的人脸检测也取得了较大的突破。但较多的人脸检测方法为了获得较高的检测率和较低的错误检测率，往往会使用复杂的、较深的网络结构，这就导致了基于CNN的人脸检测无法达到实时检测的目的。

根据人脸候选窗口获取方法的不同，基于CNN的人脸检测方法大体上可以分为一阶段人脸检测方法和二阶段人脸检测方法两种。

(1)一阶段人脸检测方法

一阶段人脸检测方法不需要首先提取人脸候选窗口(也称为proposals)，是一种直接将人脸图像输入到网络中，根据网络的特殊结构获得最终的人脸位置以及人脸置信度的方法。

基于CNN的一阶段人脸检测方法由于不需要获取proposals，所以相较二阶段人脸检测方法具有较快的检测速度。但是，一阶段人脸检测没有获取proposal，为了获得较高的正确检测率和较低的错误检测率，往往会使用复杂的、较深的网络结构，检测速度慢，无法达到实时检测的目的；并且人脸搜索空间更广，导致训练困难，对数据的要求也比较高。

(2)二阶段人脸检测方法

该方法首先需要获取人脸候选区域，接着使用CNN对候选区域进行分类以及回归。获得proposal的方法有基于传统的方法，如Selective Search等，也有使用CNN去获取proposal。该方法由于是对候选窗口进行进一步的分类，所以检测结果相对于一阶段方法来说比较准确。

但是，二阶段人脸检测方法检测速度受限于proposal的数量以及分类网络的大小，为了获得较好的检测效果，候选窗口的数量往往较多，分类网络较深，检测速度也就较慢；并且候选窗口之间会有重叠部分导致大量的重复计算，进而减慢检测的速度，无法达到实时检测的目的。

对于视频监控图像而言，其具有分辨率高，包含人脸个数和内容相对较多，较复杂的特点。无论一阶段人脸检测方法和二阶段人脸检测方法，对视频监控的每一帧图像都进行人脸检测的方法检测速度较慢，很难达到实时性的要求。

发明内容

为解决上述技术问题，本发明提供一种监控视频图像人脸检测和追踪方法、装置、介质及设备，本发明对包含多人脸、高分辨率的视频监控图像进行实时的人脸区域抓取，具有较好的人脸检测和追踪效果。

本发明提供技术方案如下：

第一方面，本发明提供一种监控视频图像人脸检测和追踪方法，所述方法包括：

从监控视频中获取当前帧图像；

判断当前帧图像的前一帧图像是否检测出人脸框，若否，使用训练好的人脸检测CNN对当前帧图像进行人脸检测，将检测到的人脸框输出；若是，执行以下步骤：

在当前帧图像上设置与前一帧图像的人脸框大小和位置相同的人脸框，并扩大设定倍数，得到追踪区域；

将追踪区域以设定的步长进行有重叠分块，得到若干待检测区域，待检测区域的大小与人脸框的大小相同；

将待检测区域输入训练好的人脸追踪CNN，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则将待检测区域作为人脸框输出。

进一步的，所述人脸检测CNN包括依次连接的第一卷积层、第二卷积层、第一池化层、第三卷积层、第四卷积层、第二池化层、第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层和第十卷积层；

所述当前帧图像输入到所述人脸检测CNN，在第六卷积层、第八卷积层和第十卷积层各输出一个特征图；以设定的长宽比和多个尺寸在每张特征图的每个单元位置得到若干目标框；使用二分类损失函数确定目标框的类别是否是人脸，使用回归损失函数对类别是人脸的目标框进行位置回归，得到人脸框。

进一步的，所述人脸追踪CNN包括依次连接的第一残差单元、第二残差单元、第三残差单元、第四残差单元、第一全连接层、第二全连接层和Softmax层；所述待检测区域输入到所述人脸追踪CNN，在第二全连接层输出一个特征向量，所述Softmax层对特征向量进行分类，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则待检测区域的边界即为人脸框。

进一步的，使用训练集的样本训练所述人脸检测CNN，所述样本为灰度图像；在训练时，将样本进行归一化，若样本的人脸区域小于设定的尺寸，则将该人脸区域用黑色覆盖，并将该样本的标签设置为非人脸；在训练时，对训练集的样本进行数据扩充，所述数据扩充包括对样本进行随机对比度变化、随机亮度变化和/或随机裁剪；

从监控视频中获取当前帧图像后，将当前帧图像转化为灰度图像并进行2倍下采样。

第二方面，本发明提供一种监控视频图像人脸检测和追踪装置，所述装置包括：

获取模块，用于从监控视频中获取当前帧图像；

判断模块，用于判断当前帧图像的前一帧图像是否检测出人脸框，若否，使用训练好的人脸检测CNN对当前帧图像进行人脸检测，将检测到的人脸框输出；若是，执行以下模块：

追踪区域确定模块，用于在当前帧图像上设置与前一帧图像的人脸框大小和位置相同的人脸框，并扩大设定倍数，得到追踪区域；

分块模块，用于将追踪区域以设定的步长进行有重叠分块，得到若干待检测区域，待检测区域的大小与人脸框的大小相同；

追踪模块，用于将待检测区域输入训练好的人脸追踪CNN，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则将待检测区域作为人脸框输出。

第三方面，本发明提供一种用于监控视频图像人脸检测和追踪的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现第一方面所述的监控视频图像人脸检测和追踪方法的步骤。

第四方面，本发明提供一种用于监控视频图像人脸检测和追踪的设备，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现第一方面所述的监控视频图像人脸检测和追踪方法的步骤。

本发明具有以下有益效果：

本发明使用单阶段人脸检测结合人脸追踪的方法，若前一帧图像检测到人脸，则在当前帧图像使用人脸追踪CNN进行快速的人脸追踪，否则，将当前帧图像输入到人脸检测CNN中，经过一次前馈过程即可完成人脸检测任务。本发明人脸检测和人脸追踪速度较快，对包含多人脸、高分辨率的视频监控图像进行实时的人脸区域抓取，具有较好的人脸检测和追踪效果，可以较好地达到实时人脸检测的目的。

附图说明

图1为本发明的监控视频图像人脸检测和追踪方法流程图；

图2为本发明的监控视频图像人脸检测和追踪方法示意图；

图3为追踪区域确定方法示意图；

图4为人脸检测CNN训练和测试示意图；

图5为本发明的监控视频图像人脸检测和追踪装置示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施提供了一种监控视频图像人脸检测和追踪方法，如图1-2所示，该方法包括：

步骤S100：从监控视频中获取当前帧图像。

本发明用于对监控视频流图像进行实时的人脸区域抓取，对视频中的每一帧图像都进行本发明的方法，因此需要从视频中获取当前需要检测的图像，即为当前帧图像。

步骤S200：判断当前帧图像的前一帧图像是否检测出人脸框，若否，使用训练好的人脸检测CNN对当前帧图像进行人脸检测，将检测到的人脸框输出；若是，执行以下步骤S300～S500。

本发明的人脸检测CNN是一阶段人脸检测方法，人脸检测CNN可以是现有技术中的各种一阶段人脸检测网络，也可以是本发明专门设计的网络结构(参见后文)。

将当前帧图像输入人脸检测CNN，即可输出最终的人脸框以及人脸置信度。理论上来说，对每帧图像都使用人脸检测CNN进行检测，就能完成整个视频的检测，但是，由于视频监控图像分辨率较高，可能包含的人脸个数较多，内容较复杂，只使用人脸检测CNN对每一帧图像进行检测，也无法达到实时的效果。

为解决上述问题，本发明采用如下策略：判断前一帧图像是否检测出人脸，如果前一帧未检测出人脸，则使用人脸检测CNN对当前帧进行检测，如果前一帧检测出人脸，则根据前一帧图像的人脸框对当前帧的人脸框进行人脸跟踪(步骤S300～S500)。

人脸跟踪的原理为：因为本发明对视频检测是实时进行的，所以在检测当前帧图像时，前一帧的图像已经完成了检测，又由于视频监控图像是一个数据流，视频中前后两帧图像具有时间连续性的特点，连续的两帧或几帧具有一定的时间和空间相关性，当前帧图像的人脸与前一帧图像的人脸偏差会在一定的范围内，因此如果前一帧图像中已经检测出了人脸，那么进行跟踪调整即可得到当前帧图像的人脸位置，即为人脸追踪。

人脸跟踪算法(人脸追踪CNN)相较于人脸检测算法(人脸检测CNN)的时间复杂度低，实时性好，因此提高了本发明的实时性，满足视频监控图像实时检测的要求。

步骤S300：在当前帧图像上设置与前一帧图像的人脸框大小和位置相同的人脸框(相当于将前一帧图像的人脸框复制到当前帧图像上相同的位置)，并扩大设定倍数，得到追踪区域。

在一个示例中，扩大时，以前一帧图像的人脸框中心为基准，向外扩大二倍得到追踪区域，用于人脸追踪。假设，前一帧图像的人脸框为(x,y,w,h)，其中x和y分别表示人脸框起始位置的横坐标和纵坐标，w和h分别表示人脸框的宽和高，以前一帧图像的人脸框中心(x+w/2，y+h/2)为基准，将人脸框的宽和高分别扩大二倍，得到当前帧图像的追踪区域，如图3所示。

步骤S400：将追踪区域以设定的步长进行有重叠分块，得到若干待检测区域，待检测区域的大小与人脸框的大小相同。

在一个示例中，对步骤S300中的追踪区域进行划分，横向和纵向各划分为5个有重叠的待检测区域，即从追踪区域的起始位置(x-w/2,y-h/2)，横向和纵向分别以2w/5和2h/5为步长，截取宽和高分别为w和h的待检测区域，共得到25个待检测区域。

步骤S500：将待检测区域输入训练好的人脸追踪CNN，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则将待检测区域作为人脸框输出。

将步骤S400中获得的25个待检测区域，输入到人脸追踪CNN中，找到包含人脸的待检测区域，记录该待检测区域的起始位置和宽高，即为人脸框，作为该帧的人脸追踪输出。

本发明的人脸检测CNN包括依次连接的第一卷积层、第二卷积层、第一池化层、第三卷积层、第四卷积层、第二池化层、第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层和第十卷积层。

本发明将当前帧图像输入到人脸检测CNN即可得到人脸框，不需要额外的人脸候选窗口提取步骤，因此本发明的人脸检测CNN为一阶段人脸检测方法。该一阶段人脸检测方法相较于二阶段人脸检测方法速度快。并且本发明的卷积神经网络结构简单，网络深度较浅，宽度较小，是轻量级神经网络，与现有技术的一阶段人脸检测方法相比，该轻量级卷积神经网络加快了检测速度，实时性更好。

如果当前帧的前一帧图像没有检测出人脸框，则将当前帧图像输入到人脸检测CNN，在第六卷积层、第八卷积层和第十卷积层各输出一个特征图；以设定的长宽比和多个尺寸在每张特征图的每个单元位置得到若干目标框；使用二分类损失函数确定目标框的类别是否是人脸，使用回归损失函数对类别是人脸的目标框进行位置回归，得到人脸框。

当前帧图像经过网络的卷积等运算后，会得到一个维度较小的特征图，特征图上的每一个单元(cell)与原图的某一个区域是一一对应的，并且越深层的特征图，其cell对应原图的感受野也就越大，所以较深层特征图可用于检测较大的人脸，较浅层的特征图可以用于检测较小的人脸。

本发明在在第六卷积层、第八卷积层和第十卷积层获取了多尺度的特征图，并以不同尺寸和长宽比得到目标框，能够很好的检测到不同尺度的人脸，提高了检测精度。

得到的目标框并不全是人脸框，因此本发明使用二分类损失函数进行类别预测，以确定目标框的类别是否是人脸，二分类损失函数优选使用softmax损失函数。

确定了目标框的类别是人脸后，本发明使用回归损失函数对类别是人脸的目标框进行位置回归，获得位置更加精确的目标框，即为人脸框。回归损失函数优选为L1损失函数。

通过上述操作，即可得到人脸框和人脸置信度。

本发明人脸检测CNN的结构和参数进行了一系列的优化，使得在保证检测效果的同时，网络具有较小的宽度和深度。

本发明的人脸追踪CNN包括依次连接的第一残差单元、第二残差单元、第三残差单元、第四残差单元、第一全连接层、第二全连接层和Softmax层；待检测区域输入到人脸追踪CNN，在第二全连接层输出一个特征向量，Softmax层对特征向量进行分类，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则待检测区域的边界即为人脸框，将人脸框以始位置坐标和宽高进行表示表示即可。

本发明的人脸追踪CNN由于该网络参数较少，结构较为简单，并且人脸追踪CNN的输入图像(待检测区域)较小，远小于人脸检测CNN的输入图像(当前帧图像)，所以可以达到实时的人脸追踪结果，在一个示例中，待检测区域大小为40*40。

人脸检测CNN在使用前需要训练，训练后进行测试，训练和测试的示意图如图4所示。本发明使用训练集的样本训练人脸检测CNN，在训练时，首先需要对训练样本进行预处理，训练样本预处理包括图像归一化和数据扩充两个方面。

在训练时，将样本进行归一化，若样本的人脸区域小于设定的尺寸，则将该人脸区域用黑色覆盖，并将该样本的标签设置为非人脸。

在一个示例中，训练样本使用的是开源数据集WiderFace，该数据集中的人脸尺度差异比较大，存在人脸尺度很小的人脸，针对于尺度较小的人脸如果将其进行下采样进行归一化，会出现人脸消失的情况。所以，合理的图像归一化尺度及其重要。在本示例中，统一的训练样本采用差值的方法归一化到长和宽均为1024个像素。此外，在训练的过程中，若标注的人脸的长和宽小于20时，会导致网络的收敛缓慢或出现不收敛的问题，所以在训练的过程中，将长或宽小于20的人脸区域使用黑色覆盖，并将该训练样本的标签置为非人脸。

为了更好的训练网络，在训练时，对训练集的样本进行数据扩充，数据扩充包括对样本进行随机对比度变化、随机亮度变化和/或随机裁剪等。

为了适应不同模式图像的人脸检测任务，进行预处理和数据扩充后，需要将样本转化成灰度图像，用于网络的训练。这样做的好处主要有两个方面：一是可以很好的解决偏色图像的人脸检测任务，二是可以减少网络的计算量，加快检测速度。

如此，完成了人脸检测CNN的训练，训练结束后，使用训练好的模型进行人脸检测CNN初始化，在训练数据集上进行微调操作，从而获得更快的人脸检测模型。

测试时，也要对获取的当前帧图像进行预处理，也就是从监控视频中获取当前帧图像后，将当前帧图像转化为灰度图像并进行2倍下采样。

由于本发明网络结构的设计中，最小可以检测到30*30的人脸区域，较小的人脸对视频监控无意义，所以对当前帧图像下采样操作可以扩大最小的人脸检测大小。此外，由于人脸检测的速度与输入图像的大小相关，所以2倍下采样可以一定程度上加快人脸检测的速度。

本发明提出了一种实时的监控视频图像人脸检测和追踪方法。该方法具有以下几个优势：

1、单阶段人脸检测框架，使用网络结构较小，多尺度特征图和不同大小的目标框设计可以很好的检测到不同尺度的人脸，结合人脸追踪策略，在检测到人脸后会对人脸图像进行人脸追踪，对高分辨率视频监控图像有较好的实时处理效果。

2、轻量级的人脸跟踪验证网络结构，可以快速的进行人脸区域验证。

3、检测耗时只与输入的图像大小有关，而与图像中的人脸个数无关，更加适用于视频监控场景下的实时人脸检测任务。

实施例2：

本发明实施例提供了一种监控视频图像人脸检测和追踪装置，如图5所示，该装置包括：

获取模块10，用于从监控视频中获取当前帧图像。

判断模块20，用于判断当前帧图像的前一帧图像是否检测出人脸框，若否，使用训练好的人脸检测CNN对当前帧图像进行人脸检测，将检测到的人脸框输出；若是，执行以下追踪区域确定模块30、分块模块40和追踪模块50。

追踪区域确定模块30，用于在当前帧图像上设置与前一帧图像的人脸框大小和位置相同的人脸框，并扩大设定倍数，得到追踪区域。

分块模块40，用于将追踪区域以设定的步长进行有重叠分块，得到若干待检测区域，待检测区域的大小与人脸框的大小相同。

追踪模块50，用于将待检测区域输入训练好的人脸追踪CNN，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则将待检测区域作为人脸框输出。

当判断模块20判断当前帧图像的前一帧图像上没有检测出人脸框时，将当前帧图像输入到人脸检测CNN，在第六卷积层、第八卷积层和第十卷积层各输出一个特征图；以设定的长宽比和多个尺寸在每张特征图的每个单元位置得到若干目标框；使用二分类损失函数确定目标框的类别是否是人脸，使用回归损失函数对类别是人脸的目标框进行位置回归，得到人脸框。

人脸追踪CNN包括依次连接的第一残差单元、第二残差单元、第三残差单元、第四残差单元、第一全连接层、第二全连接层和Softmax层；待检测区域输入到人脸追踪CNN，在第二全连接层输出一个特征向量，Softmax层对特征向量进行分类，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则待检测区域的边界即为人脸框。

本发明的人脸追踪CNN由于该网络参数较少，结构较为简单，并且人脸追踪CNN的输入图像(待检测区域)较小，远小于人脸检测CNN的输入图像(当前帧图像)，所以可以达到实时的人脸追踪结果。

本发明中，使用训练集的样本训练人脸检测CNN，样本为灰度图像；在训练时，将样本进行归一化，若样本的人脸区域小于设定的尺寸，则将该人脸区域用黑色覆盖，并将该样本的标签设置为非人脸；在训练时，对训练集的样本进行数据扩充，数据扩充包括对样本进行随机对比度变化、随机亮度变化和/或随机裁剪。

本发明提出了一种实时的监控视频图像人脸检测和追踪装置。该装置具有以下几个优势：

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

实施例3：

本说明书提供的上述实施例所述的方法可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例1所描述方案的效果。因此，本发明还提供用于监控视频图像人脸检测和追踪的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括实施例1的监控视频图像人脸检测和追踪方法的步骤。

所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

上述所述的存储介质根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

实施例4：

本发明还提供一种用于监控视频图像人脸检测和追踪的设备，所述的设备可以为单独的计算机，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的实际操作装置等。所述用于监控视频图像人脸检测和追踪的设备可以包括至少一个处理器以及存储计算机可执行指令的存储器，处理器执行所述指令时实现上述任意一个或者多个实施例1中所述监控视频图像人脸检测和追踪方法的步骤。

上述所述的设备根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

需要说明的是，本说明书上述所述的装置或者***根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类、存储介质+程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种监控视频图像人脸检测和追踪方法，其特征在于，所述方法包括：

从监控视频中获取当前帧图像；

将待检测区域输入训练好的人脸追踪CNN，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则将待检测区域作为人脸框输出；

所述人脸检测CNN包括依次连接的第一卷积层、第二卷积层、第一池化层、第三卷积层、第四卷积层、第二池化层、第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层和第十卷积层；

所述当前帧图像输入到所述人脸检测CNN，在第六卷积层、第八卷积层和第十卷积层各输出一个特征图；以设定的长宽比和多个尺寸在每张特征图的每个单元位置得到若干目标框；使用二分类损失函数确定目标框的类别是否是人脸，使用回归损失函数对类别是人脸的目标框进行位置回归，得到人脸框；

所述人脸追踪CNN包括依次连接的第一残差单元、第二残差单元、第三残差单元、第四残差单元、第一全连接层、第二全连接层和Softmax层；所述待检测区域输入到所述人脸追踪CNN，在第二全连接层输出一个特征向量，所述Softmax层对特征向量进行分类，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则待检测区域的边界即为人脸框。

2.根据权利要求1所述的监控视频图像人脸检测和追踪方法，其特征在于，使用训练集的样本训练所述人脸检测CNN，所述样本为灰度图像；在训练时，将样本进行归一化，若样本的人脸区域小于设定的尺寸，则将该人脸区域用黑色覆盖，并将该样本的标签设置为非人脸；在训练时，对训练集的样本进行数据扩充，所述数据扩充包括对样本进行随机对比度变化、随机亮度变化和/或随机裁剪；

3.一种监控视频图像人脸检测和追踪装置，其特征在于，所述装置包括：

获取模块，用于从监控视频中获取当前帧图像；

追踪模块，用于将待检测区域输入训练好的人脸追踪CNN，判断待检测区域是否是人脸区域，若待检测区域是人脸区域，则将待检测区域作为人脸框输出；

4.根据权利要求3所述的监控视频图像人脸检测和追踪装置，其特征在于，使用训练集的样本训练所述人脸检测CNN，所述样本为灰度图像；在训练时，将样本进行归一化，若样本的人脸区域小于设定的尺寸，则将该人脸区域用黑色覆盖，并将该样本的标签设置为非人脸；在训练时，对训练集的样本进行数据扩充，所述数据扩充包括对样本进行随机对比度变化、随机亮度变化和/或随机裁剪；

5.一种用于监控视频图像人脸检测和追踪的计算机可读存储介质，其特征在于，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括权利要求1-2任一所述监控视频图像人脸检测和追踪方法的步骤。

6.一种用于监控视频图像人脸检测和追踪的设备，其特征在于，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-2中任意一项所述监控视频图像人脸检测和追踪方法的步骤。