WO2019169895A1

WO2019169895A1 - 抗侧脸干扰的人脸快速检测方法

Info

Publication number: WO2019169895A1
Application number: PCT/CN2018/115770
Authority: WO
Inventors: 黄翰; 李子龙; 郝志峰
Original assignee: 华南理工大学
Priority date: 2018-03-09
Filing date: 2018-11-15
Publication date: 2019-09-12
Also published as: US11263434B2; US20200410212A1; CN108446617B; CN108446617A

Abstract

一种抗侧脸干扰的人脸快速检测方法，用户选择一张普通的图片，利用深度神经网络提取图片特征后，确定人脸的确切位置。一种人脸检测的训练方法，使用纯数据驱动的方式，使用普通人脸图片和人脸边界框作为输入，使用镜像对称与高斯滤波进行数据扩增，使用迁移学习与难例挖掘增强训练效果。在读入人脸图片后，先将图片缩放，然后放入深度神经网络中提取特征，并产生多个人脸似然框和人脸似然框的置信度得分，最后采用非极大值抑制的方式选取最合适的人脸似然框；对人脸照片的角度没有特定的要求，并且对于侧面人脸的检测效果依然非常明显。另外，上述检测方法简单，采用端到端的检测方式，可应用于实时环境。

Description

抗侧脸干扰的人脸快速检测方法

技术领域

本发明属于计算机智能监控视频处理技术领域，涉及一种抗侧脸干扰的人脸快速检测方法。

背景技术

监控视频，作为智能监控***的核心部分，一直受到广泛的关注。随着建设完备公共安全***的呼声越来越高，城市中的监控摄像头开始呈***式增长。在现有的人力资源情况下，仅凭人力检索动辄十几路的监控视频，甚至是在海量视频库中进行检索，这将浪费大量的时间。因此将视频监控自动化，充分发挥视频监控的自主性和实时性，解放人工劳动力，这对安防领域乃至人们生活水平的提高有着至关重要的作用。为了满足辅助甚至是自动检索或监控视频摄像的需求，很多自动/半自动算法应运而生。

但目前世面上的检测算法，例如人脸检测算法，很难满足市场的需求，其面对人脸检测任务时，往往不能有效地解决模糊，遮挡，过小，亦或是检测速度过慢等问题。而本发明处理速度快，检测率高，可以充分解决模糊、遮挡以及人脸过小问题，能够有效辅助安防人员的工作。

发明内容

针对现有人脸检测方法的缺点，本发明提出一种抗侧脸干扰的人脸快速检测方法，可以有效地克服人脸遮挡、过小、模糊导致的人脸不能被检测等问题，而且采用卷积神经网络以及共享参数的策略，可以大大地提高检测速度。为了达到上述目的，本发明采用以下技术方案：

本发明抗侧脸干扰的人脸快速检测方法，包含数据收集与预处理阶段、预训练与训练阶段和检测阶段，具体步骤如下：

(a)数据收集与预处理阶段，收集实际应用场景下的人脸图像，并对收集到的人脸图像进行标定，生成原始训练集；

(b)数据收集与预处理阶段，对步骤(a)中收集到的人脸图像进行镜像对称、高斯滤波处理，生成综合扩增训练集；

(c)预训练和训练阶段，使用类别数为M的非人脸普通物体的图片作为数据以SoftMax Loss或log-likehood loss的方式来预训练一个物体检测的多分类模型；

(d)预训练和训练阶段，将步骤(c)中训练得到的模型参数来以迁移学习的方式初始化人脸检测模型的部分参数,并将原始的网络模型改为二分类模型；

(e)预训练和训练阶段，将步骤(b)中的得到的扩充训练集作为输入训练集，训练得到检测阶段将要使用的模型，训练采用端到端的方式，包含了候选区域提取、人脸检测特征提取及特征分类的功能；

(f)测试阶段该人脸检测方法可以在测试时方便的调节输入图片的缩放尺度以适应满足精确度、资源消耗和检测时间的要求。

作为优选的技术方案，所述步骤(a)包括下述步骤：

(a-1)使用步骤(a)中收集到的人脸图像，使用矩形框对图像中的人脸进行标定，标定时要求矩形框上至额头发际线最高点，下至下巴最低点，左右至脸颊；

(a-2)记录矩形框的左上角点在图像中的位置(x0,y0)与矩形框的宽高(w,h),得出矩形框右下角坐标(x1,y1)其中，x1＝x0+w，y1＝y0+h。

作为优选的技术方案，所述步骤(b)包括下述步骤：

(b-1)对步骤(a)中进行标定的图片做镜像对称，设原标定框左上角坐标为(x0，y0)，右下角坐标(x1,y1)，图片宽W，高H；则经过镜像对称后的标定框左上角坐标为(x’0＝W-x’0，y’0＝y0)，右下角坐标(x’1＝W-x’1，y’1＝y0)，得到镜像扩增训练集；

(b-2)对步骤(b-1)中得到的镜像扩增训练集进行高斯滤波，其中，卷积核大小为9*9，sigma值为5，得到高斯滤波扩增训练集；

(b-3)对步骤(b-1)中得到的镜像扩增训练集和步骤(b-2)中得到的高斯滤波扩增训练集进行整合，整合过程中，人为的进行数据筛选工作：

A.对于存在单张人脸图片使用多数表决的方式，如果2人认为这为一张人脸图片，则将其保留；否则，将其删除；最终，将所有被保留的图片作为综合扩增训练集；

B.对于存在多张人脸的图片，如果存在被认为是人脸但没有被标记的情况，也将其人为剔除，最终将所有保留的图片作为综合扩增训练集。

作为优选的技术方案，所述步骤(c)包括下述步骤：

(c-1)使用类别数为20的非人脸普通物体的图片作为预训练数据；

(c-2)使用ResNet-50对预训练数据集进行训练，并将分类类别从1000类调整为21类，其中20类为上述普通物体，1类为背景。

(c-3)为了预训练模型能充分的收敛，我们使用“multistep”的策略进行训练，第一步的步长为200000，第二步的步长为400000，总的迭代次数为800000次。

作为优选的技术方案，所述步骤(d)包括下述步骤：

(d-1)使用步骤(c)中预训练得到的模型，以迁移学习的方式初始化人脸检测模型的部分参数；

(d-2)使用区域全卷积神经网络作为训练的主体框架，并将该框架分类数量修改为2分类。

作为优选的技术方案，所述步骤(e)包括下述步骤：

(e-1)使用整张人脸图像作为训练图像，与对应的人脸矩形框坐标一并作为网络的输入；

(e-2)定义网络结构，整个网络包含似然窗口提取子网络和基于区域的全卷积网络；

(e-3)采用端到端的多任务训练方式，使用难例挖掘的方式，训练得到完整的人脸检测模型。

作为优选的技术方案，所述步骤(e-2)中，

所述似然窗口提取子网络用于从待测图像中提取出人脸似然区域，具体做法是将最后一个卷积层的每个位置以三种尺度和三种长宽比的组合方式映射回原图像区域，三种尺度面积分别为[128*128，256*256，512*512]，三种长宽比分别为[1:1，1:2，2:1]，以该种方式映射的图像区域可覆盖原图像的所有目标区域；

所述基于区域的全卷积网络用于判别RPN提供的候选区域是否为人脸并对人脸的位置作进一步调整。

作为优选的技术方案，所述步骤(f)包括下述步骤：

(f-1)在测试时，输入尺度参数，其中包含最小缩放边接口和最大缩放边接口；

(f-2)该算法根据输入尺度参数对输入图片自动放缩到合适大小，并进行分类，输出位置信息和类别信息。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明在读入人脸图片后，先将图片缩放，然后放入深度神经网络中提取特征，并产生多个人脸似然框和人脸似然框的置信度得分，最后采用非极大值抑制的方式选取最合适的人脸似然框。

2、本发明提供的抗侧脸干扰的人脸快速检测方法选择人脸的脸部主要区域(上至发际线最高点、下至下巴最低点、左右各至耳朵与脸颊的分界线)作为检测目标，并通过镜像对称、高斯滤波的方式人为扩增训练图片，因此可以在很大程度上克服人脸部分遮挡、过小、模糊等导致的人脸无法被检测的问题。

3、本发明对人脸照片的角度没有特定的要求，并且对于侧面人脸的检测效果依然非常明显。

4、本发明检测方法简单，采用端到端的检测方式，可应用于实时环境。

附图说明

图1为本发明公开的一种抗侧脸干扰的人脸快速检测方法整体流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例抗侧脸干扰的人脸快速检测方法，包括数据收集与预处理阶段、预训练与训练阶段、检测阶段。

数据收集与预处理阶段首先采集应用场景下的人脸图像并标注图像中的人脸部位，然后将这些人脸样本做镜像对称和高斯滤波生成扩增训练集。

模型训练分为两个步骤：1)以普通20分类物体的图像作为训练输入，并采用SoftMax Loss的方式来训练一个21分类(多余一类为背景)模型作为预训练模型；2)用步骤1)预训练得到的模型参数来以“迁移学习”的方式来初始化人脸检测模型的部分参数，并将分类器改为2分类(一类为人脸，一类为背景)。该人脸检测模型作为最后阶段使用的模型，采用端到端的训练方式，包含了人脸似然提取、人脸特征提取及特征分类的功能。

如图1所示，本实施例的主要步骤如下：

步骤(a)属于数据收集与预处理阶段，主要目的是收集并标定数据生成原始训练集，其采用的矩形框标定方法具有简单易用，降低人力消耗，并易于进行步骤(b)的数据扩增等特点。

步骤(a)包括以下步骤:

(a-1)使用1(a)中收集到的数据，使用矩形框对图像中的人脸进行标定，要求矩形框上至额头发际线最高点，下至下巴最低点，左右至脸颊；

(a-2)记录矩形框的左上角点在图像中的位置(x0,y0)与矩形框的宽高(w,h),则可以得出矩形框右下角坐标(x1,y1)其中，x1＝x0+w,y1＝y0+h。

(b)数据收集与预处理阶段，对原始训练集进行镜像对称、高斯滤波，生成综合扩增训练集；

步骤(b)属于数据收集与预处理阶段，主要目的是通过镜像对称和高斯滤波的方式对步骤(a)中收集并标定好的数据进行增广以解决训练数据不足和模糊数据较少的问题。高斯滤波是一种线性平滑滤波，通俗的讲，高斯滤波就是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是：用一个卷积扫描图像中的每一个像素，用卷积确定的邻域内像素的加权平均灰度值去替代卷积中心像素点的值。

步骤(b)包括以下步骤：

(b-1)对步骤a中产生的原始训练集中图片、人脸标定做镜像对称。设原始训练集中，标定框左上角坐标为(x0,y0),右下角坐标(x1,y1),图片宽W,高H；则经过镜像对称后的标定框左上角坐标为(x’0＝W-x’0,y’0＝y0),右下角坐标(x’1＝W-x’1,y’1＝y0)，得到镜像扩增训练集。

(b-2)对步骤a中产生的原始训练集、步骤(b-1)中得到的镜像扩增训练集整合到一起，对整合得到的训练集做高斯滤波。其中，卷积核大小为9*9，sigma值为5，得到高斯滤波扩增训练集。

(b-3)将步骤a中产生的原始训练集、步骤(b-1)中得到的镜像扩增训练集、步骤(b-2)中得到的高斯滤波扩增训练集整合到一起，得到综合扩增训练集。

(c)预训练和训练阶段，使用多类别非人脸普通物体图片为预训练数据预训练一个物体检测的多分类模型；

步骤(c)属于预训练与训练阶段，主要目的是使用普通物体进行预训练，以提高训练阶段模型的收敛速度。

步骤(c)主要包括以下步骤：

(c-2)定义网络结构，网络的整体部分与人脸检测网络移植，方便将预训练得到的网络参数使用迁移学习的方式，迁移到人脸检测网络中美去，然后使用公式(1)作为损失函数。公式(1)的作用是将二维的逻辑回归推广到多维，在训练时，针对每个类别，都有其独自的损失值。使用区域全卷积神经网络(Region-based Fully Convolutional Networks，RFCN)对预训练数据集进行训练，并将分类类别调整为21，其中20类为上述普通物体，1类为背景。

(d)预训练和训练阶段，将原始的网络模型改为二分类模型，并以步骤(c)中预训练模型初始化部分二分类模型参数；

步骤(d)属于预训练与训练阶段，其使用步骤(c)中预训练得到的模型作为预训练模型，并将原始分类器模型从21分类改为2分类。

步骤(d)主要包括以下步骤：

(d-1)使用权利要求1(c)中预训练得到的模型，以迁移学习的方式初始化人脸检测模型的部分参数。

(d-2)使用区域全卷积神经网络(Region-based Fully Convolutional Networks，RFCN)作为训练的主体框架，并将该框架分类数量修改为2分类。

(e)预训练和训练阶段，将综合扩增训练集作为输入训练集，训练得到检测阶段将要使用的模型；

步骤(e)属于预训练与训练阶段，其使用步骤(b)中得到的综合扩增训练集作为输入训练集，训练得到检测阶段将要使用的模型，训练采用端到端的方式，包含了候选区域提取、人脸检测特征提取及特征分类的功能。

步骤(e)主要包括以下步骤：

(e-2)定义网络结构，整个网络包含似然窗口提取子网络(Region ProposalNetwork，RPN)和基于区域的全卷积网络(Region-Based Fully Convolutional Network，RFCN)。RPN的作用是从待测图像中提取出人脸似然区域，具体做法是将最后一个卷积层的每个位置以三种尺度和三种长宽比的组合方式映射回原图像区域，三种尺度面积分别为[128*128，256*256，512*512]，三种长宽比分别为[1:1，1:2，2:1]，以该种方式映射的图像区域基本可以覆盖原图像的所有目标区域。RFCN的作用是判别RPN提供的候选区域是否为人脸并对人脸的位置作进一步调整。为了提高运算速度并保持较高的检测准确率，本发明使用卷积层替代全连接层作为分类层和坐标回归层。

(e-3)采用端到端的多任务训练方式，使用难例挖掘(Hard Example Mining)的方式，训练得到完整的人脸检测模型。难例挖掘，在目标检测中我们会事先标记标定框，然后在算法中会生成一系列似然，这些似然有跟标记的标定框重合的也有没重合的，那么重合度(IOU)超过一定阈值(通常0.5)的则认定为是正样本，以下的则是负样本。然后扔进网络中训练。然而这也许会出现一个问题那就是正样本的数量远远小于负样本，这样训练出来的分类器的效果总是有限的，会出现许多假阳性，把其中得分较高的这些假阳性视为难例，既然挖掘出了这些难例，就把这些扔进网络再训练一次，从而加强分类器判别假阳性的能力。

(f)测试阶段,根据测试集数据特点，调节输入图片的缩放尺度以满足检测精度、资源消耗、检测时间的要求，并进行测试。

步骤(f)属于测试阶段，其使用步骤(e)中训练得到的模型，可以通过调节尺度参数的方式，对人脸检测速度、资源消耗、准确率做出权衡。当缩放尺度较大时，人脸检测速度较慢，消耗资源较高，但准确率会提升；而当缩放尺度较小时，人脸检测速度较快，消耗资源较少，但准确率会降低。用户应该根据实际检测要求调节缩放尺度参数。

步骤(f)主要包括以下步骤：

(f-1)在测试时，输入尺度参数，其中包含最小缩放边接口min_len和最大缩放边max_len接口。设原图片边长为W0、H0，经过缩放后的图片边长为W1、H1,则W1、H1的值如下所示：

如果min_len*MAX(W ₀,H ₀)>max_len：

否则：

则：min_scale ²≤W ₁*H ₁≤max_scale ²，即可以保证将进行尺度缩放后的图片缩放到固定的面积区间内，保证时间、资源消耗在固定范围内。

(f-2)该算法对缩放好的图片，并进行分类，输出位置信息和类别信息。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

抗侧脸干扰的人脸快速检测方法，其特征在于，包含数据收集与预处理阶段、预训练与训练阶段和检测阶段，具体步骤如下：

(a)数据收集与预处理阶段，收集实际应用场景下的人脸图像，并对收集到的人脸图像进行标定，生成原始训练集；

(b)数据收集与预处理阶段，对步骤(a)中收集到的人脸图像进行镜像对称、高斯滤波处理，生成综合扩增训练集；

(c)预训练和训练阶段，使用类别数为M的非人脸普通物体的图片作为数据以SoftMax Loss或log-likehood loss的方式来预训练一个物体检测的多分类模型；

(d)预训练和训练阶段，将步骤(c)中训练得到的模型参数来以迁移学习的方式初始化人脸检测模型的部分参数,并将原始的网络模型改为二分类模型；

(e)预训练和训练阶段，将步骤(b)中的得到的扩充训练集作为输入训练集，训练得到检测阶段将要使用的模型，训练采用端到端的方式，包含了候选区域提取、人脸检测特征提取及特征分类的功能；

(f)测试阶段该人脸检测方法可以在测试时方便的调节输入图片的缩放尺度以适应满足精确度、资源消耗和检测时间的要求。
根据权利要求1所述抗侧脸干扰的人脸快速检测方法，其特征在于，所述步骤(a)包括下述步骤：

(a-1)使用步骤(a)中收集到的人脸图像，使用矩形框对图像中的人脸进行标定，标定时要求矩形框上至额头发际线最高点，下至下巴最低点，左右至脸颊；

(a-2)记录矩形框的左上角点在图像中的位置(x0,y0)与矩形框的宽高(w,h),得出矩形框右下角坐标(x1,y1)其中，x1＝x0+w，y1＝y0+h。
根据权利要求1所述抗侧脸干扰的人脸快速检测方法，其特征在于，所述步骤(b)包括下述步骤：

(b-1)对步骤(a)中进行标定的图片做镜像对称，设原标定框左上角坐标为(x0，y0)，右下角坐标(x1,y1)，图片宽W，高H；则经过镜像对称后的标定框左上角坐标为(x’0＝W-x’0，y’0＝y0)，右下角坐标(x’1＝W-x’1，y’1＝y0)，得到镜像扩增训练集；

(b-2)对步骤(b-1)中得到的镜像扩增训练集进行高斯滤波，其中，卷积核大小为9*9，sigma值为5，得到高斯滤波扩增训练集；

(b-3)对步骤(b-1)中得到的镜像扩增训练集和步骤(b-2)中得到的高斯滤波扩增训练集进行整合，整合过程中，人为的进行数据筛选工作：

A.对于存在单张人脸图片使用多数表决的方式，如果2人认为这为一张人脸图片，则将其保留；否则，将其删除；最终，将所有被保留的图片作为综合扩增训练集；

B.对于存在多张人脸的图片，如果存在被认为是人脸但没有被标记的情况，也将其人为剔除，最终将所有保留的图片作为综合扩增训练集。
根据权利要求1所述抗侧脸干扰的人脸快速检测方法，其特征在于，所述步骤(c)包括下述步骤：

(c-1)使用类别数为20的非人脸普通物体的图片作为预训练数据；

(c-2)使用ResNet-50对预训练数据集进行训练，并将分类类别从1000类调整为21类，其中20类为上述普通物体，1类为背景。

(c-3)为了预训练模型能充分的收敛，我们使用“multistep”的策略进行训练，第一步的步长为200000，第二步的步长为400000，总的迭代次数为800000次。
根据权利要求1所述抗侧脸干扰的人脸快速检测方法，其特征在于，所述步骤(d)包括下述步骤：

(d-1)使用步骤(c)中预训练得到的模型，以迁移学习的方式初始化人脸检测模型的部分参数；

(d-2)使用区域全卷积神经网络作为训练的主体框架，并将该框架分类数量修改为2分类。
根据权利要求1所述抗侧脸干扰的人脸快速检测方法，其特征在于，所述步骤(e)包括下述步骤：

(e-1)使用整张人脸图像作为训练图像，与对应的人脸矩形框坐标一并作为网络的输入；

(e-2)定义网络结构，整个网络包含似然窗口提取子网络和基于区域的全卷积网络；

(e-3)采用端到端的多任务训练方式，使用难例挖掘的方式，训练得到完整的人脸检测模型。
根据权利要求6所述抗侧脸干扰的人脸快速检测方法，其特征在于，所述步骤(e-2)中，

所述似然窗口提取子网络用于从待测图像中提取出人脸似然区域，具体做法是将最后一个卷积层的每个位置以三种尺度和三种长宽比的组合方式映射回原图像区域，三种尺度面积分别为[128*128，256*256，512*512]，三种长宽比分别为[1:1，1:2，2:1]，以该种方式映射的图像区域可覆盖原图像的所有目标区域；

所述基于区域的全卷积网络用于判别RPN提供的候选区域是否为人脸并对人脸的位置作进一步调整。
根据权利要求1所述抗侧脸干扰的人脸快速检测方法，其特征在于，所述步骤(f)包括下述步骤：

(f-1)在测试时，输入尺度参数，其中包含最小缩放边接口和最大缩放边接口；

(f-2)该算法根据输入尺度参数对输入图片自动放缩到合适大小，并进行分类，输出位置信息和类别信息。