CN108171196B

CN108171196B - 一种人脸检测方法及装置

Info

Publication number: CN108171196B
Application number: CN201810018060.4A
Authority: CN
Inventors: 李志国; 刘洋; 曾建平; 朱明�; 李党
Original assignee: Shenzhen Qianhai Intellidata Technology Co ltd; Beijing Icetech Science & Technology Co ltd
Current assignee: Shenzhen Qianhai Intellidata Technology Co ltd; Beijing Icetech Science & Technology Co ltd
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2021-10-26
Anticipated expiration: 2038-01-09
Also published as: CN108171196A

Abstract

本发明提供了一种人脸检测方法，该方法包括：输入待检测的视频图像；对视频图像进行运动目标检测，获取运动目标区域；对运动目标区域进行blob团块处理，获取目标检测区域；选取人脸和非人脸样本图像，对级联卷积神经网络进行训练，获取训练好的人脸检测模型；采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果。与现有技术相比，本发明能快速地检测复杂场景中的人脸，且检测准确率高。

Description

一种人脸检测方法及装置

技术领域

本发明涉及图像处理、视频监控以及安防，特别涉及人脸检测方法及装置。

背景技术

近年来，由于人脸识别的广泛应用和其较高的市场期望，人脸识别一直是模式识别中的一个热门方向。

人脸检测作为人脸识别***中的关键环节，占用了大部分的***资源，并且其检测性能直接影响最终的识别精度，因此显得十分重要。

目前，常见的基于视频/图像的人脸检测方法有模板匹配法、肤色模型法、神经网络法、SVM分类器法、Adaboost分类器法等。但这些方法检测准确率较低，难以适应复杂的环境。

近年来，随着人工智能的快速发展，深度学***移、缩放、倾斜和旋转等变形的敏感度低，更加适用于无约束环境的图像人脸检测。

然而，现有的基于卷积神经网络的人脸检测方法一般采用较多的网络层实现，其运算复杂度较高。

综上所述，需要提出一种运算复杂度低且检测准确率高的人脸检测方法。

发明内容

有鉴于此，本发明的主要目的在于快速的实现人脸检测，且检测准确率高。

为达到上述目的，按照本发明的第一个方面，提供了一种人脸检测方法，该方法包括：

第一步骤，输入待检测的视频图像；

第二步骤，对视频图像进行运动目标检测，获取运动目标区域；

第三步骤，对运动目标区域进行blob团块处理，获取目标检测区域；

第四步骤，选取人脸和非人脸样本图像，对级联卷积神经网络进行训练，获取训练好的人脸检测模型；

第五步骤，采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果。

进一步地，所述第三步骤包括：

小团块合并步骤，在当前帧视频图像内，根据任意两个运动目标区域的宽度、高度和间距，判断这两个运动目标区域是否进行合并处理；

孤立小团块滤除步骤，在当前帧视频图像内，根据运动目标区域的面积、以及与其余运动目标区域的间距，将属于孤立小团块的运动目标区域滤除；

过大团块分割步骤，在当前帧视频图像内，根据运动目标区域的面积与视频图像面积的比值，将属于过大团块的运动目标区域进行分割处理。

进一步地，所述第四步骤包括：

训练样本选取步骤，选取标注人脸图像为正样本图像，选取标注非人脸图像为负样本图像，选取部分人脸样本图像；

一级卷积神经网络训练步骤，采用正样本图像、部分人脸样本图像和负样本图像，对第一级卷积神经网络进行训练，获取训练好的第一级人脸检测模型，并利用第一级人脸检测模型挖掘到难例负样本图像；

二级卷积神经网络训练步骤，采用正样本图像、部分人脸样本图像和一级卷积神经网络训练步骤输出的难例负样本图像，对第二级卷积神经网络进行训练，获取训练好的第二级人脸检测模型，并利用第二级人脸检测模型挖掘到难例负样本图像；

三级卷积神经网络训练步骤，采用正样本图像、部分人脸样本图像和二级卷积神经网络训练步骤输出的难例负样本图像，对第三级卷积神经网络进行训练，获取训练好的第三级人脸检测模型。

所述难例负样本图像为通过人脸检测模型误检的负样本图像。

进一步地，所述第五步骤包括：

待检测区域输入步骤，输入待检测的目标检测区域；

多尺度缩放步骤，对目标检测区域进行多尺度缩放；

第一级人脸检测模型检测步骤，采用第一级人脸检测模型，分别对每个尺度的目标检测区域进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第一人脸候选框，并转入第二级人脸检测模型检测步骤，否则转入人脸检测结果输出步骤；

第二级人脸检测模型检测步骤，采用第二级人脸检测模型，对第一人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第二人脸候选框，并转入第三级人脸检测模型检测步骤，否则转入人脸检测结果输出步骤；

第三级人脸检测模型检测步骤，采用第三级人脸检测模型，对第二人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为人脸框；

人脸检测结果输出步骤，若目标检测区域存在人脸框，则输出人脸框的位置；若目标检测区域不存在人脸框，则输出无人脸。

进一步地，按照本发明的一种人脸检测方法还可以包括：第六步骤，采用光流法对人脸检测结果进行跟踪，输出人脸跟踪结果。

按照本发明的另一个方面，提供了一种人脸检测装置，该装置包括：

视频图像输入模块，用于输入待检测的视频图像；

运动目标检测模块，用于对视频图像进行运动目标检测，获取运动目标区域；

blob团块处理模块，用于对运动目标区域进行blob团块处理，获取目标检测区域；

级联卷积神经网络训练模块，用于选取人脸和非人脸样本图像，对级联卷积神经网络进行训练，获取训练好的人脸检测模型；

人脸检测模块，用于采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果。

进一步地，所述blob团块处理模块包括：

小团块合并模块，用于在当前帧视频图像内，根据任意两个运动目标区域的宽度、高度和间距，判断这两个运动目标区域是否进行合并处理；

孤立小团块滤除模块，用于在当前帧视频图像内，根据运动目标区域的面积、以及与其余运动目标区域的间距，将属于孤立小团块的运动目标区域滤除；

过大团块分割模块，用于在当前帧视频图像内，根据运动目标区域的面积与视频图像面积的比值，将属于过大团块的运动目标区域进行分割处理。

进一步地，所述级联卷积神经网络训练模块包括：

训练样本选取模块，用于选取标注人脸图像为正样本图像，选取标注非人脸图像为负样本图像，选取部分人脸样本图像；

一级卷积神经网络训练模块，用于采用正样本图像、部分人脸样本图像和负样本图像，对第一级卷积神经网络进行训练，获取训练好的第一级人脸检测模型，并利用第一级人脸检测模型挖掘到难例负样本图像；

二级卷积神经网络训练模块，用于采用正样本图像、部分人脸样本图像和一级卷积神经网络训练模块输出的难例负样本图像，对第二级卷积神经网络进行训练，获取训练好的第二级人脸检测模型，并利用第二级人脸检测模型挖掘到难例负样本图像；

三级卷积神经网络训练模块，用于采用正样本图像、部分人脸样本图像和二级卷积神经网络训练模块输出的难例负样本图像，对第三级卷积神经网络进行训练，获取训练好的第三级人脸检测模型。

进一步地，所述人脸检测模块包括：

待检测区域输入模块，用于输入待检测的目标检测区域；

多尺度缩放模块，用于对目标检测区域进行多尺度缩放；

第一级人脸检测模型检测模块，用于采用第一级人脸检测模型，分别对每个尺度的目标检测区域进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第一人脸候选框，并转入第二级人脸检测模型检测模块，否则转入人脸检测结果输出模块；

第二级人脸检测模型检测模块，采用第二级人脸检测模型，对第一人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第二人脸候选框，并转入第三级人脸检测模型检测模块，否则转入人脸检测结果输出模块；

第三级人脸检测模型检测模块，采用第三级人脸检测模型，对第二人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为人脸框；

人脸检测结果输出模块，若目标检测区域存在人脸框，则输出人脸框的位置；若目标检测区域不存在人脸框，则输出无人脸。

进一步地，按照本发明的一种人脸检测装置还可以包括：人脸跟踪模块，用于采用光流法对人脸检测结果进行跟踪，输出人脸跟踪结果。

与现有的人脸检测技术相比，本发明的一种人脸检测方法及装置一方面采用级联卷积神经网络进行人脸检测，并且通过部分人脸样本的训练和难例负样本的挖掘，有效地提高了人脸检测的准确率；另一方面在进行级联卷积神经网络人脸检测前，先通过运动目标检测和blob团块处理获取目标检测区域，后面只需要在目标检测区域内进行人脸检测，从而大大地降低了运算量。

附图说明

图1示出了按照本发明的一种人脸检测方法的第一实施例的流程图。

图2示出了按照本发明的一种人脸检测方法的第二实施例的流程图。

图3示出了按照本发明的一种人脸检测装置的第一实施例的框架图。

图4示出了按照本发明的一种人脸检测装置的第二实施例的框架图。

具体实施方式

为使贵审查员能进一步了解本发明的结构、特征及其他目的，现结合所附较佳实施例详细说明如下，所说明的较佳实施例仅用于说明本发明的技术方案，并非限定本发明。

图1给出了按照本发明的一种人脸检测方法的第一实施例的流程图。如图1所示，按照本发明的一种人脸检测方法包括：

第一步骤S1，输入待检测的视频图像；

第二步骤S2，对视频图像进行运动目标检测，获取运动目标区域；

第三步骤S3，对运动目标区域进行blob团块处理，获取目标检测区域；

第四步骤S4，选取人脸和非人脸样本图像，对级联卷积神经网络进行训练，获取训练好的人脸检测模型；

第五步骤S5，采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果。

所述第二步骤S2可以通过现有运动目标检测方法实现，包括但不限于：静态差分法、高斯背景建模法、CodeBook背景建模法以及VIBE方法。

实施例，所述第二步骤S2采用混合高斯背景建模方法，如“基于熵理论改进混合高斯模型的运动目标检测算法.刘万军，李琳.《计算机应用研究》,2015,32(7):2226-2229”文献中的运动目标检测方法，对视频图像进行运动目标检测，获取前景检测目标，提取前景检测目标的外接矩形区域作为运动目标区域。

进一步地，所述第三步骤S3包括：

小团块合并步骤S31，在当前帧视频图像内，根据任意两个运动目标区域的宽度、高度和间距，判断这两个运动目标区域是否进行合并处理；

孤立小团块滤除步骤S32，在当前帧视频图像内，根据运动目标区域的面积、以及与其余运动目标区域的间距，将属于孤立小团块的运动目标区域滤除；

过大团块分割步骤S33，在当前帧视频图像内，根据运动目标区域的面积与视频图像面积的比值，将属于过大团块的运动目标区域进行分割处理。

进一步地，所述小团块合并步骤S31包括：对于当前帧视频图像内的任意两个运动目标区域B_i和B_j，计算运动目标区域B_i的宽度WB_i和高度HB_i，计算运动目标区域B_j的宽度WB_j和高度HB_j，分别计算运动目标区域B_i和B_j在x和y方向上的间距Xd_ij、Xd_ij，如果同时满足

和

则将运动目标区域B_i和B_j合并成一个运动目标区域，其中i，j∈{1，2，…，BNum1}，i≠j，BNum1为当前帧视频图像内的运动目标区域的个数，W和H为当前帧视频图像的宽度和高度。

进一步地，所述孤立小团块滤除步骤S32包括：对于当前帧视频图像，分别计算每个运动目标区域的面积，获取运动目标区域的面积最大值SB_max，对于任意一个运动目标区域B_p，如果满足

则认为运动目标区域B_p为孤立小团块，将运动目标区域B_p滤除，其中p∈{1，2，…，BNum2}，BNum2为当前帧视频图像内的运动目标区域的个数，SB_p为运动目标区域B_p的面积。

进一步地，所述过大团块分割步骤S33包括：对于当前帧视频图像内的任意一个运动目标区域B_q，计算运动目标区域B_q的面积SB_q与当前帧视频图像的面积S的比值

如果

则认为运动目标区域B_q为过大团块，并采用前景密度分布分割法，将运动目标区域B_q分割成一个或者多个运动目标区域，其中q∈{1，2，…，BNum3}，BNum3为当前帧视频图像内的运动目标区域的个数。

进一步地，所述过大团块分割步骤S33中前景密度分布分割法包括：对于认为是过大团块的运动目标区域B_q，构建一个宽度为

高度为

的滑动窗口，采用滑动窗口在运动目标区域B_q内依次滑动一遍，统计每个滑动窗口区域内的前景点的数量值，获取滑动窗口区域内前景点数量值的最大值WFNum_max，将前景点数量值为WFNum_max的滑动窗口区域作为分割的运动目标区域B_q1；将运动目标区域B_q内除运动目标区域B_q1以外的部分作为分割子区域，分别计算每个分割子区域的面积，如果某个分割子区域的面积与运动目标区域B_q1面积的比值小于

则滤除此分割子区域，如果某个分割子区域的面积与运动目标区域B_q1面积的比值位于

之间，则将此分割子区域与运动目标区域B_q1合并，如果某个分割子区域的面积与运动目标区域B_q1面积的比值大于

则将此分割子区域作为分割的运动目标区域。

所述T₁的取值范围为2～8，所述T₂的取值范围为3～8，所述T₃的取值范围为2～8，所述T₄的取值范围为2～8，所述T₅的取值范围为8～12，所述T₆的取值范围为2～6。进一步地，所述T₁的取值范围为2～4，所述T₂的取值范围为4～6，所述T₃的取值范围为2～4，所述T₄的取值范围为2～4，T₅的取值范围为9～11，所述T₆的取值范围为3～5。

进一步地，所述第四步骤S4包括：

训练样本选取步骤S41，选取标注人脸图像为正样本图像，选取标注非人脸图像为负样本图像，选取部分人脸样本图像；

一级卷积神经网络训练步骤S42，采用正样本图像、部分人脸样本图像和负样本图像，对第一级卷积神经网络进行训练，获取训练好的第一级人脸检测模型，并利用第一级人脸检测模型挖掘到难例负样本图像；

二级卷积神经网络训练步骤S43，采用正样本图像、部分人脸样本图像和一级卷积神经网络训练步骤S42输出的难例负样本图像，对第二级卷积神经网络进行训练，获取训练好的第二级人脸检测模型，并利用第二级人脸检测模型挖掘到难例负样本图像；

三级卷积神经网络训练步骤S44，采用正样本图像、部分人脸样本图像和二级卷积神经网络训练步骤S43输出的难例负样本图像，对第三级卷积神经网络进行训练，获取训练好的第三级人脸检测模型。

所述标注人脸图像包括不同场景、不同光照、不同姿态、不同肤色等情况下只框选人脸的图像，所述标注非人脸图像包括不同场景、不同光照等情况下不含人脸的图像，所述标注部分人脸图像为含有人脸样本图像的图像。

进一步地，所述标注非人脸图像包括：含有肤色特征的身体部位，与肤色相近的背景等区域图像。

所述难例负样本图像为通过人脸检测模型误检的负样本图像。实施例，如果某个标注非人脸的负样本图像经过第一级人脸检测模型或者第二级人脸检测模型检测后，输出为人脸，则认为此负样本图像为难例负样本图像。

进一步地，所述第一级卷积神经网络(Convolutional Neural Network,简称CNN)、所述第二级卷积神经网络、所述第三级卷积神经网络为现有的卷积神经网络，可以包括但不限于：一般的CNN、RCNN、SPPNET、Fast-RCNN、Faster-RCNN、YOLO、SSD等或者上述网络的组合。

实施例一，所述第一级卷积神经网络包括：4个卷积层、1个池化层；所述第二级卷积神经网络包括：3个卷积层、3个池化层、3个全连接层；所述第三级卷积神经网络包括：4个卷积层、3个池化层、3个全连接层，其中最后一个全连接层输出为3，表示输出3个分类结果，包括：人脸、非人脸以及部分人脸。

实施例二，所述第一级卷积神经网络、所述第二级卷积神经网络、所述第三级卷积神经网络采用“卷积神经网络在人脸检测中的应用研究.刘秀青.山西大学,2015”论文中的神经网络结构，其中最后一个全连接层输出为3，表示输出3个分类结果，包括：人脸、非人脸以及部分人脸。

进一步地，所述第五步骤S5包括：

待检测区域输入步骤S51，输入待检测的目标检测区域；

多尺度缩放步骤S52，对目标检测区域进行多尺度缩放；

第一级人脸检测模型检测步骤S53，采用第一级人脸检测模型，分别对每个尺度的目标检测区域进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第一人脸候选框，并转入第二级人脸检测模型检测步骤S54，否则转入人脸检测结果输出步骤S56；

第二级人脸检测模型检测步骤S54，采用第二级人脸检测模型，对第一人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第二人脸候选框，并转入第三级人脸检测模型检测步骤S55，否则转入人脸检测结果输出步骤S56；

第三级人脸检测模型检测步骤S55，采用第三级人脸检测模型，对第二人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为人脸框；

人脸检测结果输出步骤S56，若目标检测区域存在人脸框，则输出人脸框的位置；若目标检测区域不存在人脸框，则输出无人脸。

图2给出了按照本发明的一种人脸检测方法的第二实施例的流程图。如图2所示，按照本发明的一种人脸检测方法包括：

第一步骤S1，输入待检测的视频图像；

第五步骤S5，采用人脸检测模型对目标检测区域进行人脸检测，输出人脸检测结果；

第六步骤S6，采用光流法对人脸检测结果进行跟踪，输出人脸跟踪结果。

所述第六步骤S6可以通过现有的基于光流法的跟踪方法或者算法实现。

进一步地，所述第六步骤S6包括：

首帧人脸框ID赋予步骤S61，对于待检测的视频图像，将首次检测到人脸框的视频图像作为第一帧图像，将第一帧视频图像内的所有人脸框赋予唯一的ID号；

当前帧人脸框ID获取步骤S62，根据每一个ID号的人脸框在前一帧的位置，通过光流法计算此ID号的人脸框在当前帧的位置，并采用人脸比对法，对前一帧和当前帧对应此ID号的人脸框进行比对，若比对成功，则给当前帧对应此ID号位置的人脸框赋予此ID号，若比对失败，则给当前帧对应此ID号位置的人脸框赋予一个新的ID号，若当前帧对应此ID号位置无人脸框，则采用跟踪结果作为此ID号的人脸框位置，直到此ID号的人脸框消失；

人脸跟踪结果输出步骤S63，输出待检测视频中所有ID号的人脸框的跟踪结果。

实施例，所述第六步骤S6采用金字塔光流法对待检测视频图像的所有人脸框进行跟踪，例如“基于在线Boosting和LK光流的视频跟踪算法.《西南科技大学学报》,2012,27(4):80-84”中的方法。

图3给出了按照本发明的一种人脸检测装置的第一实施例的框架图。如图3所示，按照本发明的一种人脸检测装置包括：

视频图像输入模块1，用于输入待检测的视频图像；

运动目标检测模块2，用于对视频图像进行运动目标检测，获取运动目标区域；

blob团块处理模块3，用于对运动目标区域进行blob团块处理，获取目标检测区域；

级联卷积神经网络训练模块4，用于选取人脸和非人脸样本图像，对级联卷积神经网络进行训练，获取训练好的人脸检测模型；

人脸检测模块5，用于采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果。

所述运动目标检测模块2可以通过现有运动目标检测方法、设备或者装置实现，包括但不限于：基于静态差分、高斯背景建模、CodeBook背景建模以及VIBE算法的运动目标检测方法、设备或者装置。

进一步地，所述blob团块处理模块3包括：

小团块合并模块31，用于在当前帧视频图像内，根据任意两个运动目标区域的宽度、高度和间距，判断这两个运动目标区域是否进行合并处理；

孤立小团块滤除模块32，用于在当前帧视频图像内，根据运动目标区域的面积、以及与其余运动目标区域的间距，将属于孤立小团块的运动目标区域滤除；

过大团块分割模块33，用于在当前帧视频图像内，根据运动目标区域的面积与视频图像面积的比值，将属于过大团块的运动目标区域进行分割处理。

进一步地，所述小团块合并模块31包括：用于对于当前帧视频图像内的任意两个运动目标区域B_i和B_j，计算运动目标区域B_i的宽度WB_i和高度HB_i，计算运动目标区域B_j的宽度WB_j和高度HB_j，分别计算运动目标区域B_i和B_j在x和y方向上的间距Xd_ij、Xd_ij，如果同时满足

和

进一步地，所述孤立小团块滤除模块32包括：用于对于当前帧视频图像，分别计算每个运动目标区域的面积，获取运动目标区域的面积最大值SB_max，对于任意一个运动目标区域B_p，如果满足

进一步地，所述过大团块分割模块33包括：用于对于当前帧视频图像内的任意一个运动目标区域B_q，计算运动目标区域B_q的面积SB_q与当前帧视频图像的面积S的比值

如果

则认为运动目标区域B_q为过大团块，并采用前景密度分布分割模块，将运动目标区域B_q分割成一个或者多个运动目标区域，其中q∈{1，2，…，BNum3}，BNum3为当前帧视频图像内的运动目标区域的个数。

进一步地，所述过大团块分割模块33中前景密度分布分割模块包括：用于对于认为是过大团块的运动目标区域B_q，构建一个宽度为

高度为

则将此分割子区域作为分割的运动目标区域。

进一步地，所述级联卷积神经网络训练模块4包括：

训练样本选取模块41，用于选取标注人脸图像为正样本图像，选取标注非人脸图像为负样本图像，选取部分人脸样本图像；

一级卷积神经网络训练模块42，用于采用正样本图像、部分人脸样本图像和负样本图像，对第一级卷积神经网络进行训练，获取训练好的第一级人脸检测模型，并利用第一级人脸检测模型挖掘到难例负样本图像；

二级卷积神经网络训练模块43，用于采用正样本图像、部分人脸样本图像和一级卷积神经网络训练模块42输出的难例负样本图像，对第二级卷积神经网络进行训练，获取训练好的第二级人脸检测模型，并利用第二级人脸检测模型挖掘到难例负样本图像；

三级卷积神经网络训练模块44，用于采用正样本图像、部分人脸样本图像和二级卷积神经网络训练模块43输出的难例负样本图像，对第三级卷积神经网络进行训练，获取训练好的第三级人脸检测模型。

实施例，所述第一级卷积神经网络包括：4个卷积层、1个池化层；所述第二级卷积神经网络包括：3个卷积层、3个池化层、3个全连接层；所述第三级卷积神经网络包括：4个卷积层、3个池化层、3个全连接层。

进一步地，所述人脸检测模块5包括：

待检测区域输入模块51，用于输入待检测的目标检测区域；

多尺度缩放模块52，用于对目标检测区域进行多尺度缩放；

第一级人脸检测模型检测模块53，用于采用第一级人脸检测模型，分别对每个尺度的目标检测区域进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第一人脸候选框，并转入第二级人脸检测模型检测模块54，否则转入人脸检测结果输出模块56；

第二级人脸检测模型检测模块54，采用第二级人脸检测模型，对第一人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为第二人脸候选框，并转入第三级人脸检测模型检测模块55，否则转入人脸检测结果输出模块56；

第三级人脸检测模型检测模块55，采用第三级人脸检测模型，对第二人脸候选框进行人脸检测，若检测到人脸，则根据检测到的人脸位置获取目标检测区域内的相对位置，标记为人脸框；

人脸检测结果输出模块56，若目标检测区域存在人脸框，则输出人脸框的位置；若目标检测区域不存在人脸框，则输出无人脸。

图4给出了按照本发明的一种人脸检测装置的第二实施例的框架图。如图4所示，按照本发明的一种人脸检测装置包括：

视频图像输入模块1，用于输入待检测的视频图像；

人脸检测模块5，用于采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果；

人脸跟踪模块6，用于采用光流法对人脸检测结果进行跟踪，输出人脸跟踪结果。

所述人脸跟踪模块6可以通过现有的基于光流法的跟踪方法、设备或者装置实现。

进一步地，所述人脸跟踪模块6包括：

首帧人脸框ID赋予模块61，用于对于待检测的视频图像，将首次检测到人脸框的视频图像作为第一帧图像，将第一帧视频图像内的所有人脸框赋予唯一的ID号；

当前帧人脸框ID获取模块62，用于根据每一个ID号的人脸框在前一帧的位置，通过光流法计算此ID号的人脸框在当前帧的位置，并采用人脸比对法，对前一帧和当前帧对应此ID号的人脸框进行比对，若比对成功，则给当前帧对应此ID号位置的人脸框赋予此ID号，若比对失败，则给当前帧对应此ID号位置的人脸框赋予一个新的ID号，若当前帧对应此ID号位置无人脸框，则采用跟踪结果作为此ID号的人脸框位置，直到此ID号的人脸框消失；

人脸跟踪结果输出模块63，用于输出待检测视频中所有ID号的人脸框的跟踪结果。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，应当理解，本发明并不限于这里所描述的实现方案，这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。任何本领域中的技术人员很容易在不脱离本发明精神和范围的情况下进行进一步的改进和完善，因此本发明只受到本发明权利要求的内容和范围的限制，其意图涵盖所有包括在由所附权利要求所限定的本发明精神和范围内的备选方案和等同方案。

Claims

1.一种人脸检测方法，其特征在于，该方法包括：

第一步骤，输入待检测的视频图像；

第五步骤，采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果；

所述第三步骤包括：

2.如权利要求1所述的方法，其特征在于，所述小团块合并步骤包括：对于当前帧视频图像内的任意两个运动目标区域B_i和B_j，计算运动目标区域B_i的宽度WB_i和高度HB_i，计算运动目标区域B_j的宽度WB_j和高度HB_j，分别计算运动目标区域B_i和B_j在x和y方向上的间距Xd_ij、Xd_ij，如果同时满足

和

则将运动目标区域B_i和B_j合并成一个运动目标区域，其中i，j∈{1，2，…，BNum1}，i≠j，BNum1为当前帧视频图像内的运动目标区域的个数，W和H为当前帧视频图像的宽度和高度；

所述T₁的取值范围为2～8。

3.如权利要求1所述的方法，其特征在于，所述孤立小团块滤除步骤包括：对于当前帧视频图像，分别计算每个运动目标区域的面积，获取运动目标区域的面积最大值SB_max，对于任意一个运动目标区域B_p，如果满足

则认为运动目标区域B_p为孤立小团块，将运动目标区域B_p滤除，其中p∈{1，2，…，BNum2}，BNum2为当前帧视频图像内的运动目标区域的个数，SB_p为运动目标区域B_p的面积；

所述T₂的取值范围为3～8。

4.如权利要求1所述的方法，其特征在于，所述过大团块分割步骤包括：对于当前帧视频图像内的任意一个运动目标区域B_q，计算运动目标区域B_q的面积SB_q与当前帧视频图像的面积S的比值

如果

则认为运动目标区域B_q为过大团块，并采用前景密度分布分割法，将运动目标区域B_q分割成一个或者多个运动目标区域，其中q∈{1，2，…，BNum3}，BNum3为当前帧视频图像内的运动目标区域的个数；

所述T₃的取值范围为2～8。

5.如权利要求4所述的方法，其特征在于，所述前景密度分布分割法包括：对于认为是过大团块的运动目标区域B_q，构建一个宽度为

高度为

则将此分割子区域作为分割的运动目标区域；

所述T₄的取值范围为2～8，所述T₅的取值范围为8～12，所述T₆的取值范围为2～6。

6.如权利要求1所述的方法，其特征在于，所述第四步骤包括：

三级卷积神经网络训练步骤，采用正样本图像、部分人脸样本图像和二级卷积神经网络训练步骤输出的难例负样本图像，对第三级卷积神经网络进行训练，获取训练好的第三级人脸检测模型；

其中，所述难例负样本图像为通过人脸检测模型误检的负样本图像。

7.如权利要求1所述的方法，其特征在于，所述第五步骤包括：

待检测区域输入步骤，输入待检测的目标检测区域；

多尺度缩放步骤，对目标检测区域进行多尺度缩放；

8.如权利要求1所述的方法，其特征在于，该方法包括：第六步骤，采用光流法对人脸检测结果进行跟踪，输出人脸跟踪结果。

9.一种人脸检测装置，其特征在于，该装置包括：

视频图像输入模块，用于输入待检测的视频图像；

人脸检测模块，用于采用人脸检测模型对目标检测区域进行人脸检测，输出检测结果；

所述blob团块处理模块包括：

10.如权利要求9所述的装置，其特征在于，所述级联卷积神经网络训练模块包括：

三级卷积神经网络训练模块，用于采用正样本图像、部分人脸样本图像和二级卷积神经网络训练模块输出的难例负样本图像，对第三级卷积神经网络进行训练，获取训练好的第三级人脸检测模型；

11.如权利要求9所述的装置，其特征在于，所述人脸检测模块包括：

待检测区域输入模块，用于输入待检测的目标检测区域；

多尺度缩放模块，用于对目标检测区域进行多尺度缩放；

12.如权利要求9所述的装置，其特征在于，该装置包括：人脸跟踪模块，用于采用光流法对人脸检测结果进行跟踪，输出人脸跟踪结果。