CN107563350A

CN107563350A - 一种基于尺度建议网络的人脸检测方法

Info

Publication number: CN107563350A
Application number: CN201710860946.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-01-09

Abstract

本发明提出了一种基于尺度建议网络的人脸检测方法，输入图像进行重采样获得一个小尺寸图像，通过尺度建议网络产生尺寸建议，估计人脸大小，生成尺度直方图，在网络的末端放置最大池层，接着缩放直方图，提取直方图信号，直方图向量在一定尺度下对人脸存在概率进行编码。最后通过单尺度区域建议网络和结果结合进行人脸检测。如果在一幅图像中生成多尺度建议，则对其进行多次缩放和检测，并将结果组合起来形成最终的检测结果。本发明在尺度建议阶段的目标是估计图像中出现所有人脸的可能大小，然后图像缩放根据尺度建议和单尺度区域建议网络进行检测。可以节省检测中的计算量，计算价格低，检测性能好。

Description

一种基于尺度建议网络的人脸检测方法

技术领域

本发明涉及人脸检测领域，尤其是涉及了一种基于尺度建议网络的人脸检测方法。

背景技术

人脸检测是人脸识别***中的关键环节，人脸检测***应该能够处理各种尺度、姿态和外观的人脸。现今，人脸检测是计算机视觉应用最广泛的应用之一，人脸检测在图像搜索、身份识别、安全防护、即时通讯、娱乐媒体等方面有广阔应用，尤其是多人脸检测的应用更为广泛，如大型社交领域的安全权限、公民出入境事务、银行业务安全以及安防等重要领域都有相应的应用。常用的人脸检测方法采用卷积神经网络(CNN)，通过卷积神经网络的人脸检测器，并没有考虑到姿态和规模的差异，由于其处理不同尺度的人脸时效率不高，而且依赖于在大尺度范围或多尺度测试中拟合一个的单一模型，计算量大且价格昂贵，性能效果不太好。

发明内容

针对计算量大且价格昂贵的问题，本发明的目的在于提供一种基于尺度建议网络的人脸检测方法，输入图像进行重采样获得一个小尺寸图像，通过尺度建议网络产生尺寸建议，估计人脸大小，生成尺度直方图，在网络的末端放置最大池层，接着缩放直方图，提取直方图信号，直方图向量在一定尺度下对人脸存在概率进行编码。最后通过单尺度区域建议网络和结果结合进行人脸检测。

为解决上述问题，本发明提供一种基于尺度建议网络的人脸检测方法，其主要内容包括：

(一)尺度建议网络(SPN)；

(二)缩放直方图；

(三)单尺度区域建议网络进行人脸检测。

其中，所述的尺度建议网络(SPN)，定义尺度建议网络来估计人脸大小，在尺度建议阶段，尺寸建议通过尺度建议网络(SPN)产生，专门设计的卷积神经网络，目的是在最小的人为约束下生成灰度直方图；

尺度建议网络是一个完全卷积网络，最后一个卷积层之后有一个最大池层，用于从任意大小的输入图像生成固定长度直方图矢量；以原始图像作为输入，并产生一个尺度反应热图(大小为w×h×n)，经过最大池层热图减少到一个直方图矢量的大小1×1×n，每一个元素对应于图像中具有一定规模的人脸概率，直方图向量解释为一个尺度-概率直方图，输出特征长度等于标度直方图中的bin的数量，直方图用Sigmoid函数归一化，使得每个元素概率都在[0,1]范围内。

进一步地，所述的人脸大小，用于生成标定真实直方图的人脸的大小定义为正方形包围盒的边长，保持它在整个训练样本中的一致性，边界框注释中的噪声会影响尺度建议网络的性能，两个阶段之间的边界框的任何偏差都会严重影响性能，手工标注面部包围盒容易产生噪声，所以使用转换点面部标志性进行注释：

与左眼中心、右眼中心、鼻子、左嘴角和右嘴角的位置对应，分别为k＝1,2,…,5，相应的包围盒定义为其中是盒子的中心位置，是它的边长，o_x，o_y和o_y是样本共享的偏移参数。

进一步地，所述的标定真实直方图，直接把直方图当作多个二进制分类器，为每个面部位置设置相应的bin，容易出现注释噪声，采用稳定的生成标定真实直方图矢量的方法，对于每个标定真实面部尺寸s，分配一个高斯函数：

标注i的目标值从f(x)采样：

高斯函数提供了软边界，有较高的鲁棒性，σ的选择取决于误差分布和探测器的窗口大小。

进一步地，所述的尺度直方图，在对数尺度直方图同样放置n个bin，左边缘对应面部大小s₀，右边缘对应面部大小s_n、直方图矢量h的定义为：

h＝[a₁,a₂,a₃,…,a_n] (4)

其中d是基数为2的对数尺度每个二进制的宽度，d＝(s_n-s₀)/n，和是第i个二进制的左、右边缘，所以x代表脸，size(x)代表脸部x的大小；对应于脸部直方图第i个bin，其大小在范围内。

进一步地，最大池层为一个反应器，丢弃位置信息并选择所有位置的每个直方图bin的最大响应，消除标准RPN的位置约束，如果对输入图像的投影位置接近物体的中心，分类热图响应高，然而，使用SPN训练，脸部的尺度估计响应可以在热图的任意位置，忽略的位置信息有助于网络选择性地学习极具代表性的面孔和语境特征，即使脸部比网络的接受范围大得多或小得多，此外，这种安排使多个面部部分的响应有助于独立地进行尺度估计，只有选择最高的响应，才能提高鲁棒性。

进一步地，SPN训练，SPN的输出直方图向量直接由Sigmoid交叉熵损失监督：

其中N表示bin总数，为网络估计直方图矢量(由Sigmoid函数归一化)，p是真实的直方图向量，在训练过程中，每次迭代梯度通过最高响应的位置向后传播，SPN随机初始化训练，位置选择并不总是正确的，尤其是在最初的几次迭代中，只要训练数据足够充足，SPN自动学习保持正确的位置。

其中，所述的缩放直方图，在图像中可能有多个人脸，为了节省计算量，相近尺寸的人脸可以被单程检测仪覆盖，由于SPN产生的高分辨率的尺度估计，通过非极大值抑制(NMS)实现，当估计的灰度直方图具有大量的bin(如：脸部尺寸为2³～2⁹之间有60个bin，每个bin有一个间隔2^0.1)，直方图往往是有噪声的，图像中的人脸通常会给其相应的bin及其相邻的bin带来较高的响应，这使得不可能简单地将高响应建议阈值化，需要提取直方图信号。

进一步地，所述的提取直方图信号，为了从直方图中提取有用的信号，利用移动平均法对直方图进行平滑处理，窗口长度为检测器覆盖范围的一半，这样可以减少高频噪声和尖峰，同时保持足够的分辨率，然后使用一维NMS从平滑直方图中提取峰值，峰的位置对应于人脸的大小，峰的高度被视为其置信度；NMS的窗口大小设置为略小于检测器的覆盖范围，因此它不会遗漏有用信号；进行NMS之后，剩下极少数的尺度建议，高于阈值被选定为最终的建议，根据检测前建议调整图像大小，实现较高的召回率。

其中，所述的单尺度区域建议网络进行人脸检测，采用区域建议网络(RPN)作为人脸检测器，RPN是一个完全卷积网络，有两个输出分支：分类和包围盒回归；每个分支可以有一个或多个子分支，处理不同尺度的对象，各分支的参考框称为锚箱；由于人脸大小的变化已经在第一阶段处理，在这个阶段，只使用一个RPN，最大的可检测人脸尺寸设置为最小可检测脸尺寸的两倍，这样的设置可以达到很高的精度，同时保持每个图像平均噪声低，RPN计算便宜。

附图说明

图1是本发明一种基于尺度建议网络的人脸检测方法的***框架图。

图2是本发明一种基于尺度建议网络的人脸检测方法的尺度感知人脸检测器流程图。

图3是本发明一种基于尺度建议网络的人脸检测方法的尺度建议网络结构。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于尺度建议网络的人脸检测方法的***框架图。主要包括，尺度建议网络；缩放直方图；单尺度区域建议网络进行人脸检测。

尺度建议网络，定义尺度建议网络来估计人脸大小，在尺度建议阶段，尺寸建议通过尺度建议网络(SPN)产生，专门设计的卷积神经网络，目的是在最小的人为约束下生成灰度直方图；

缩放直方图，在图像中可能有多个人脸，为了节省计算量，相近尺寸的人脸可以被单程检测仪覆盖，由于SPN产生的高分辨率的尺度估计，通过非极大值抑制(NMS)实现，当估计的灰度直方图具有大量的bin(如：脸部尺寸为2³～2⁹之间有60个bin，每个bin有一个间隔2^0.1)，直方图往往是有噪声的，图像中的人脸通常会给其相应的bin及其相邻的bin带来较高的响应，这使得不可能简单地将高响应建议阈值化，需要提取直方图信号。

为了从直方图中提取有用的信号，利用移动平均法对直方图进行平滑处理，窗口长度为检测器覆盖范围的一半，这样可以减少高频噪声和尖峰，同时保持足够的分辨率，然后使用一维NMS从平滑直方图中提取峰值，峰的位置对应于人脸的大小，峰的高度被视为其置信度；NMS的窗口大小设置为略小于检测器的覆盖范围，因此它不会遗漏有用信号；进行NMS之后，剩下极少数的尺度建议，高于阈值被选定为最终的建议，根据检测前建议调整图像大小，实现较高的召回率。

单尺度区域建议网络进行人脸检测，采用区域建议网络(RPN)作为人脸检测器，RPN是一个完全卷积网络，有两个输出分支：分类和包围盒回归；每个分支可以有一个或多个子分支，处理不同尺度的对象，各分支的参考框称为锚箱；由于人脸大小的变化已经在第一阶段处理，在这个阶段，只使用一个RPN，最大的可检测人脸尺寸设置为最小可检测脸尺寸的两倍，这样的设置可以达到很高的精度，同时保持每个图像平均噪声低，RPN计算便宜。

图2是本发明一种基于尺度建议网络的人脸检测方法的尺度感知人脸检测器流程图。首先，输入图像进行重采样获得一个小尺寸图像，通过尺度建议网络获得灰度直方图。直方图对图像中可能的人脸大小进行编码，但不包含任何位置信息。SPN网络计算量小，然后根据灰度直方图对输入图像进行采样，使得图像中所有的人脸都在RPN可覆盖的范围内。如果图像只包含大的人脸，则可以减少计算量。最后，单独检测重的采样图像人脸和结果相结合，得出最终结果。

图3是本发明一种基于尺度建议网络的人脸检测方法的尺度建议网络结构。尺度建议网络是一个完全卷积网络，最后一个卷积层之后有一个最大池层，用于从任意大小的输入图像生成固定长度直方图矢量；以原始图像作为输入，并产生一个尺度反应热图(大小为w×h×n)，经过最大池层热图减少到一个直方图矢量的大小1×1×n，每一个元素对应于图像中具有一定规模的人脸概率，直方图向量解释为一个尺度-概率直方图，输出特征长度等于标度直方图中的bin的数量，直方图用Sigmoid函数归一化，使得每个元素概率都在[0,1]范围内。

所述的人脸大小，用于生成标定真实直方图的人脸的大小定义为正方形包围盒的边长，保持它在整个训练样本中的一致性，边界框注释中的噪声会影响尺度建议网络的性能，两个阶段之间的边界框的任何偏差都会严重影响性能，手工标注面部包围盒容易产生噪声，所以使用转换点面部标志性进行注释：

所述的标定真实直方图，直接把直方图当作多个二进制分类器，为每个面部位置设置相应的bin，容易出现注释噪声，采用稳定的生成标定真实直方图矢量的方法，对于每个标定真实面部尺寸s，分配一个高斯函数：

标注i的目标值从f(x)采样：

尺度直方图，在对数尺度直方图同样放置n个bin，左边缘对应面部大小s₀，右边缘对应面部大小s_n、直方图矢量h的定义为：

h＝[a₁,a₂,a₃,…,a_n] (4)

最大池层为一个反应器，丢弃位置信息并选择所有位置的每个直方图bin的最大响应，消除标准RPN的位置约束，如果对输入图像的投影位置接近物体的中心，分类热图响应高，然而，使用SPN训练，脸部的尺度估计响应可以在热图的任意位置，忽略的位置信息有助于网络选择性地学习极具代表性的面孔和语境特征，即使脸部比网络的接受范围大得多或小得多，此外，这种安排使多个面部部分的响应有助于独立地进行尺度估计，只有选择最高的响应，才能提高鲁棒性。

SPN的输出直方图向量直接由Sigmoid交叉熵损失监督：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于尺度建议网络的人脸检测方法，其特征在于，主要包括尺度建议网络(SPN)(一)；缩放直方图(二)；单尺度区域建议网络进行人脸检测(三)。

2.基于权利要求书1所述的尺度建议网络(SPN)(一)，其特征在于，定义尺度建议网络来估计人脸大小，在尺度建议阶段，尺寸建议通过尺度建议网络(SPN)产生，专门设计的卷积神经网络，目的是在最小的人为约束下生成灰度直方图；

3.基于权利要求书2所述的人脸大小，其特征在于，用于生成标定真实直方图的人脸的大小定义为正方形包围盒的边长，保持它在整个训练样本中的一致性，边界框注释中的噪声会影响尺度建议网络的性能，两个阶段之间的边界框的任何偏差都会严重影响性能，手工标注面部包围盒容易产生噪声，所以使用转换点面部标志性进行注释：

4.基于权利要求书3所述的标定真实直方图，其特征在于，直接把直方图当作多个二进制分类器，为每个面部位置设置相应的bin，容易出现注释噪声，采用稳定的生成标定真实直方图矢量的方法，对于每个标定真实面部尺寸s，分配一个高斯函数：

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>s</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

标注i的目标值从f(x)采样：

5.基于权利要求书2所述的尺度直方图，其特征在于，在对数尺度直方图同样放置n个bin，左边缘对应面部大小s₀，右边缘对应面部大小s_n、直方图矢量h的定义为：

h＝[a₁,a₂,a₃,…,a_n] (4)

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mo>&Exists;</mo> <mi>x</mi> <mo>|</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mi>l</mi> </msubsup> <mo>&le;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mo>(</mo> <mrow> <mi>s</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo><</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mi>r</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>)</mo> <mo>,</mo> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

6.基于权利要求书2所述的最大池层，其特征在于，最大池层为一个反应器，丢弃位置信息并选择所有位置的每个直方图bin的最大响应，消除标准RPN的位置约束，如果对输入图像的投影位置接近物体的中心，分类热图响应高，然而，使用SPN训练，脸部的尺度估计响应可以在热图的任意位置，忽略的位置信息有助于网络选择性地学习极具代表性的面孔和语境特征，即使脸部比网络的接受范围大得多或小得多，此外，这种安排使多个面部部分的响应有助于独立地进行尺度估计，只有选择最高的响应，才能提高鲁棒性。

7.基于权利要求书6所述的SPN训练，其特征在于，SPN的输出直方图向量直接由Sigmoid交叉熵损失监督：

<mrow> <mi>L</mi> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>&lsqb;</mo> <msub> <mi>p</mi> <mi>n</mi> </msub> <mi>log</mi> <msub> <mover> <mi>p</mi> <mo>^</mo> </mover> <mi>n</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mi>log</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mover> <mi>p</mi> <mo>^</mo> </mover> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

8.基于权利要求书1所述的缩放直方图(二)，其特征在于，在图像中可能有多个人脸，为了节省计算量，相近尺寸的人脸可以被单程检测仪覆盖，由于SPN产生的高分辨率的尺度估计，通过非极大值抑制(NMS)实现，当估计的灰度直方图具有大量的bin(如：脸部尺寸为2³～2⁹之间有60个bin，每个bin有一个间隔2^0.1)，直方图往往是有噪声的，图像中的人脸通常会给其相应的bin及其相邻的bin带来较高的响应，这使得不可能简单地将高响应建议阈值化，需要提取直方图信号。

9.基于权利要求书8所述的提取直方图信号，其特征在于，为了从直方图中提取有用的信号，利用移动平均法对直方图进行平滑处理，窗口长度为检测器覆盖范围的一半，这样可以减少高频噪声和尖峰，同时保持足够的分辨率，然后使用一维NMS从平滑直方图中提取峰值，峰的位置对应于人脸的大小，峰的高度被视为其置信度；NMS的窗口大小设置为略小于检测器的覆盖范围，因此它不会遗漏有用信号；进行NMS之后，剩下极少数的尺度建议，高于阈值被选定为最终的建议，根据检测前建议调整图像大小，实现较高的召回率。

10.基于权利要求书1所述的单尺度区域建议网络进行人脸检测(三)，其特征在于，采用区域建议网络(RPN)作为人脸检测器，RPN是一个完全卷积网络，有两个输出分支：分类和包围盒回归；每个分支可以有一个或多个子分支，处理不同尺度的对象，各分支的参考框称为锚箱；由于人脸大小的变化已经在第一阶段处理，在这个阶段，只使用一个RPN，最大的可检测人脸尺寸设置为最小可检测脸尺寸的两倍，这样的设置可以达到很高的精度，同时保持每个图像平均噪声低，RPN计算便宜。