CN111695522B

CN111695522B - 一种平面内的旋转不变人脸检测方法、装置及存储介质

Info

Publication number: CN111695522B
Application number: CN202010539709.4A
Authority: CN
Inventors: 周丽芳; 谷雨; 李伟生; 熊超
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2022-10-18
Anticipated expiration: 2040-06-15
Also published as: CN111695522A

Abstract

本发明属于图像处理技术领域，涉及一种平面内的旋转不变人脸检测方法、装置及存储介质；所述方法包括以SSD快速目标检测方法的模型结构为基础，构建出包括基本网络和检测网络的卷积神经网络；利用基本网络提取出输入图像的卷积特征；对检测网络进行改造，采用多尺度特征层对基本网络的卷积特征进行多尺度融合；在多尺度特征层上连接有方向敏感特征集成网络，提取出旋转不变的卷积特征；采用属于不同样本的人脸图像数据集对卷积神经网络进行训练，直至训练损失；使用训练完成的卷积神经网络对待测的人脸图像进行处理，根据卷积神经网络参数获得其人脸分类概率、边界框回归向量和角度类别标签。本发明改进了SSD模型，获得了较好的检测效果。

Description

一种平面内的旋转不变人脸检测方法、装置及存储介质

技术领域

本发明属于图像处理技术领域，特别涉及平面内的旋转不变人脸检测方法、装置及存储介质。

背景技术

人脸检测是计算机视觉中基础且富有挑战性的问题。给定一张输入图像，人脸检测的目标是在不同的三维位置、方向和光照条件下识别出包含人脸的所有图像区域。根据检测结果，可以为面部信息进行后续深入的分析，以实现对人类个体相关信息的获取，或者完成更高层的任务。此外，人脸检测已在军事、智能交通、安防监控、情绪分析等领域得到了广泛应用。综上所述，深入开展鲁棒性的人脸检测研究具有非常重要的理论创新意义和工程应用价值。

由于真实场景的复杂多变，受人体姿态和取景角度的影响，采集到的人脸图像，时常会存在平面内旋转角度不确定等问题。多样的平面内旋转角度，使得人脸的表观变化非常大，为旋转不变人脸检测带来了极大的挑战。目前流行的基于矩形框人脸表示方法的人脸检测具有以下一些局限性。首先，矩形边界框并非是最合适的人脸表示方法，将人脸放置在矩形框内会包含许多分散注意力的背景噪声。大多数检测器会枚举大量的人脸候选框位置，而没有真正理解面部本身组成的视觉语法。此外，矩形框本身传达的人脸目标信息很少，例如缺乏人脸的形状和头部姿势等。

发明内容

针对以上现有技术中的不足，本发明的目的在于提供一种平面内的旋转不变人脸检测方法、装置及存储介质，能够对平面内旋转角度变化较为鲁棒进行人脸检测。

为实现上述目的本发明采用的技术方案如下：

在本发明的第一方面，本发明提供了一种平面内的旋转不变人脸检测方法，包括以下步骤：

以SSD快速目标检测方法的模型结构为基础，构建出包括基本网络和检测网络的卷积神经网络；

利用基本网络提取出输入图像的卷积特征；对检测网络进行改造，采用多尺度特征层对基本网络的卷积特征进行多尺度融合；在多尺度特征层上连接有方向敏感特征集成网络，提取出方向敏感特征，该敏感特征属于旋转不变的卷积特征；

采用属于不同样本的人脸图像数据集对所述卷积神经网络进行训练，直至达到训练轮次后终止；

使用训练完成的卷积神经网络对待测的人脸图像进行处理，根据卷积神经网络参数获得其人脸分类概率、边界框回归向量和角度类别标签。

进一步的，利用基本网络提取出输入图像的卷积特征包括采用VGG-16模型的五个卷积块，即conv1-2，conv2-2，conv3-3，conv4-3，conv5-3；且这个五个卷积块依次按照自顶向下的顺序连接；并利用上采样方式提取出输入图像的卷积特征；其中，每个卷积块包括多个卷积层和一个最大池化层。

进一步的，采用多尺度特征层对基本网络的卷积特征进行多尺度融合包括卷积滤波器通过自底向上的方式提取出来自conv5-3，conv4-3，conv3-3卷积块输出的特征图，将上采样方式提取出的结果与特征图进行融合形成多尺度特征。

进一步的，所述方向敏感特征集成网络包括循环卷积层，在所述循环卷积层后通过跳连接有跨通道池化层，在跨通道池化层上预测出第一旋转角度；利用激活函数对第一旋转角度进行处理，获取方向敏感特征。

进一步的，所述采用属于不同样本的人脸图像数据集对所述卷积神经网络进行训练包括根据标注好的人脸区域与候选框之间的真实边界框重叠区域值，将所述人脸图像数据集划分为正样本、负样本以及部分人脸样本；采用正样本和部分人脸样本训练边界框回归向量，采用正样本和负样本训练人脸分类，采用正样本训练角度分类。

进一步的，对所述正样本采用随机旋转层方法，将输入的人脸图像或特征图及其标签随机旋转0°，90°，180°或270°；通过对称变换获得相应的边界框和人脸关键点的位置标签；随机旋转训练的人脸图像至[-45°,45°]，通过设置随机旋转层获得平面内任意旋转角度的训练正样本。

进一步的，所述训练过程包括分别对人脸分类、边界框和角度分类进行训练，总体损失函数表示为：

其中，L({p_i},{t_i},{θ_i})表示对于每一个训练样本i的总体的训练损失，p_i表示其对应的网络输出的人脸分类得分；若包含人脸则p_i ^*＝1；否则，p_i ^*＝0；t_i表示边界框回归向量，t_i ^*＝[x_i ^*,y_i ^*,w_i ^*,h_i ^*]，x_i ^*,y_i ^*,w_i ^*,h_i ^*依次表示倾斜边界框的真实中心坐标和高、宽；θ_i表示网络输出训练样本i的角度分类得分，θ_i ^*表示该样本的真实类别标注，N代表训练样本数量；λ_cls表示为人脸分类任务重要性参数，λ_reg表示为边界框回归任务重要性参数，λ_ang表示为角度分类任务重要性参数。

在本发明的第二方面，本发明还提供了一种计算装置，包括摄像装置、存储器和处理器，所述存储器中包括人脸检测程序，所述人脸检测程序被所述处理器执行时实现如下步骤：

利用基本网络提取出输入图像的卷积特征；对检测网络进行改造，采用多尺度特征层对基本网络的卷积特征进行多尺度融合；在多尺度特征层上连接有方向敏感特征集成网络，提取出方向敏感特征；

在本发明的第三方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中包括人脸检测程序，所述人脸检测程序被处理器执行时，实现上述的人脸检测方法的步骤。

本发明的优点及有益效果如下

本发明基于改进SSD模型设计了平面内的旋转不变人脸检测方法、装置及存储介质，该方法是通过方向敏感特征集成网络实现的。考虑到SSD的模型设计相对简单，在特征提取层之后通过设置一些小型的卷积滤波器直接预测人脸候选框的类别得分和边界框的位移向量，在低分辨率输入图像上也可以达到较高精度，并进一步提高了速度与精度之间的权衡。基于改进SSD模型，将旋转不变人脸检测任务公式化为一个基于倾斜边界框的回归模型，在通用的人脸检测损失中增加了新的角度偏移损失，学习目标的角度偏移；利用循环卷积层和旋转激活实现了方向敏感特征集成网络，由粗到细地学习角度分类任务。本方法获得了较好的检测效果。

附图说明

图1是本发明实施例提供的一种平面内的旋转不变人脸检测方法流程图；

图2是本发明实施例提供的方向敏感特征集成模型网络结构图；

图3是本发明实施例提供的方向敏感特征提取模块示意图；

图4是本发明实施例提供的方向敏感特征集成网络结构图；

图5是本发明实施例提供的基于倾斜边界框的人脸表示方法；

图6是本发明实施例提供的旋转不变人脸检测方法的检测效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例基于SSD快速目标检测方法的改进模型实现，待测的人脸图像首先通过基本网络提取卷积特征，然后接入特征金字塔网络的多尺度特征融合结构中，将上采样2倍、4倍和8倍的特征图进行多尺度融合。在特征金字塔网络中每层特征图后接一个方向敏感特征集成网络，从而实现对倾斜边界框的检测。最后根据方向敏感特征集成网络参数计算人脸分类概率、边界框回归向量和角度类别标签。为了说明本发明所述的技术方案，下面结合附图和具体实施例作说明。

图1示出了本发明实施例提供的旋转不变人脸检测方法流程图，包括如下：

图2示出了本发明实施例提供的方向敏感特征集成模型网络结构图，详述如下：

借鉴于经典的单阶段目标检测框架，SSD卷积神经网络由基本网络和检测网络两个部分组成，其中检测网络的一个重要作用就是对倾斜边界框的检测。基本网络采用VGG-16模型的五个卷积块：conv1-2，conv2-2，conv3-3，conv4-3，conv5-3。一个典型的块结构循环交替地使用以下几个基本层：非线性卷积层和最大池化层，起着特征提取的作用。具体地：

VGG-16网络模型接受的输入尺寸是一个固定值，宽度为512，高度为512，深度为3代表输入图像色彩通道是3通道，即RGB图像。所有的训练样本都尺寸归一化为512×512×3，将输入图像采样后输入至基本网络。

第一个卷积块，又称conv1-2，网络结构从上至下依次是：第一层，卷积层，卷积核大小为3×3，卷积核数目为64；第二层，卷积层，卷积核大小为3×3，卷积核数目为64；第三层，最大池化层，池化区间为3×3；

第二个卷积块，又称conv2-2，网络结构从上至下依次是：第一层，卷积层，卷积核大小为3×3，卷积核数目为128；第二层，卷积层，卷积核大小为3×3，卷积核数目为128；第三层，最大池化层，池化区间为3×3；

第三个卷积块，又称conv3-3，网络结构从上至下依次是：第一层，卷积层，卷积核大小为3×3，卷积核数目为256；第二层，卷积层，卷积核大小为3×3，卷积核数目为256；第三层，卷积层，卷积核大小为3×3，卷积核数目为256；第四层，最大池化层，池化区间为3×3；

第四个卷积块，又称conv4-3，网络结构从上至下依次是：第一层，卷积层，卷积核大小为3×3，卷积核数目为512；第二层，卷积层，卷积核大小为3×3，卷积核数目为512；第三层，卷积层，卷积核大小为3×3，卷积核数目为512；第四层，最大池化层，池化区间为3×3；

第五个卷积块，又称conv5-3，网络结构从上至下依次是：第一层，卷积层，卷积核大小为3×3，卷积核数目为512；第二层，卷积层，卷积核大小为3×3，卷积核数目为512；第三层，卷积层，卷积核大小为3×3，卷积核数目为512；第四层，最大池化层，池化区间为3×3。

当然，在本发明中，方向敏感特征集成网络以方向敏感特征集成模块的方式实现。

本发明所采用的卷积神经网络借鉴于经典的单阶段目标检测框架SSD，在SSD模型的基础上改进了检测网络部分，检测头部采用特征金字塔网络的多尺度特征融合结构，将上采样2倍、4倍和8倍的特征图进行多尺度融合。检测尾部则采用如图3所示的方向敏感特征集成网络；对于检测头部，其采用的特征金字塔网络具体可以参考如下：

在conv5-3、conv4-3和conv3-3输出的特征图上采用卷积核大小为3×3的卷积滤波器提取多尺度特征；

自顶向下的过程采用上采样进行，而横向连接则是将上采样的结果和自底向上生成的相同大小的特征图进行融合，在融合之后还会再采用3×3的卷积核对每个融合结果进行卷积，目的是消除上采样的混叠效应。

进一步的，特征金字塔网络的多尺度特征每层都独立接入一个方向敏感特征集成网络做预测。卷积神经网络平移等变性的实现，某种意义上可以认为是利用了权值的平移共享，因此，本发明利用循环卷积层，较为简单合理地利用了权值旋转共享的改造卷积层实现卷积神经网络的旋转不变性。

如图3示出了本发明实施例提供的方向敏感特征提取网络的模块示意图。

具体地：

在一个实施例中，为了能够提取一个真正有效的旋转不变特征，在输出的多尺度特征采用卷积核也就是循环卷积层复制4份，并旋转到四个方向，利用卷积核提取原多尺度特征中四个朝向的特征；直观来看，循环卷积层直接实现了权值的旋转共享，但是其输出的四个特征本身都还不是旋转不变的。

在另一个实施例中，循环卷积层还可以设置为其他多个方向，比如说两个方向、八个方向，相应的从卷积核复制两份和八份。

图4示出了本发明实施例提供的方向敏感特征集成网络结构图。具体地：

为了保持模型检测速度且保持模型准确性，在方向敏感特征集成网络中使用由粗到精的策略执行二次预测，以方向敏感特征集成网络生成的一次预测和生成的最终预测结果构成角度软分类。首次预测以四分类的形式实现，定义θ₁∈{0,π/2,π,3π/2}。主要通过采用跳连接(Skip Connection)结构在方向敏感特征提取跨通道池化前生成初步预测第一旋转角度θ₁。

随后，θ₁作为方向敏感特征集成网络的输入参数，以激活函数的形式实现方向敏感特征集成。激活函数为：

其中z为循环卷积层生成的四个方向特征图。

角度类别预测在方向敏感特征集成网络中以多分类的形式实现，定义θ∈{0,2π/24,4π/24,6π/24,…,46π/24}，将平面内旋转角度划分为24个有限集合；最终确定出待测的人脸图像的倾斜角度。

当然这个有限集合可以不限于24个，若为了更为准确的确定出人脸图像的倾斜角度，可以设置更大的数值，例如48个有限集合，对应为θ∈{0,2π/48,4π/48,6π/48,…,94π/48}，此时就可以确定出更为准确的人脸图像倾斜角度，例如为3π/48等。

对于由粗到细的二次预测，本发明在初始预测是可以预测出人脸图像的大致倾斜角度，例如第一旋转角度为π/2，而二次预测则可以输出人脸图像的更为具体的第二旋转角度，第二旋转角度将从{0,2π}之间选择出一个具体值，该值可以对应为有限集合中的一个值。

本发明中第一旋转角度主要是为了预测出上下左右四个主方向，然后通过加权的方式融入二次预测计算中；因为远离第一次预测方向，权值就小了。

最后根据方向敏感特征集成网络参数计算人脸分类概率、边界框回归向量和角度类别标签。训练的质量在很大程度上取决于损失函数的设计。训练方向敏感特征集成网络采用三个损失函数的组合，包括人脸分类、边界框回归和角度分类。总体损失函数如下式所示：

其中，L({p_i},{t_i},{θ_i})表示对于每一个训练样本i的总体的训练损失；对于每一个训练样本i，p_i表示其对应的网络输出人脸分类得分；若包含人脸则p_i ^*＝1；否则，p_i ^*＝0；t_i表示边界框回归向量，t_i ^*＝[x_i ^*,y_i ^*,w_i ^*,h_i ^*]，表示倾斜边界框的真实中心坐标和高、宽；θ_i表示网络输出的角度分类得分，θ_i ^*表示该样本的真实类别标注，N_cls表示人脸分类的训练样本数量；N_reg表示边界框回归的训练样本数量；N_ang表示角度分类的训练样本数量；N代表训练样本数量。总体的训练损失是上述损失函数的加权和，设置人脸分类任务重要性参数λ_cls＝3，设置边界框回归任务重要性参数λ_reg＝1，设置角度分类任务重要性参数λ_ang＝1。

人脸分类损失主要用来区分人脸区域和背景，回归损失主要用来学习人脸区域基于预设框的相对距离，用MSE损失表示人脸分类和回归误差；角度分类损失主要是拟合人脸的全局结构，采用交叉熵损失。

具体地说，回归损失L_reg的计算公式如下式所示：

其中，t_i＝[x_i,y_i,w_i,h_i]，表示倾斜边界框的所预测的中心坐标和高、宽；上述参数中，带*的表示真实值，不带*表示预测值。

在本发明实施例中，使用公开人脸数据库WIDER FACE作为训练集。WIDER FACE包含各种尺度、姿态和遮挡下的人脸，覆盖了真实场景下可能出现的人脸状态，共32203张图像，393703个人脸检测矩形框位置标记。其中50％的人脸数据用作训练集，40％用作测试集，剩下的10％用作验证集；当然，也可以采集实际场景下的人脸图像作为待测的人脸图像进行检测识别。

在本发明中，在训练卷积神经网络之前，还需要对人脸图像数据集进行处理，这个处理的过程可以为：在本发明实例中，利用旋转，缩放，平移和翻转运算符对WIDER FACE数据集进行数据扩充，根据标注好的人脸区域与候选框之间的真实边界框重叠区域IoU(Intersection over Union，IoU)划分三种数据，即正样本、负样本和部分人脸样本。

IoU>0.7的候选框被标记为给正样本；IoU在0.4到0.7之间的标记为部分人脸样本即中间样本；IoU<0.3则标记为负样本。

当然，本发明不限于上述设置，本领域技术人员可以实际情况调整相应的区间值。

正样本和中间样本被用于训练边界框回归任务，而正和负样本则用于训练人脸/非人脸二分类任务，正样本被用于训练角度分类任务。

为了减少计算量，在训练中保持各个角度的样本平衡，采用随机旋转层方法，将输入图像或特征图及其标签随机旋转0°，90°，180°或270°，其计算过程如下式所示：

上述转换不会丢失输入图像的任何信息，适用于任何特征层后，通过简单的对称变换获得相应的边界框和人脸关键点的位置标签。因此，我们只需要随机地旋转训练图像至[-45°,45°]，通过设置随机旋转层获得平面内任意旋转角度的训练样本。

为了实现对倾斜边界框的有效检测，在本发明实施例中，将原始基于矩形框的人脸表示方法映射为矩形框的内接椭圆形。

如图5示出了本发明实施例提供的基于倾斜边界框的人脸表示方法。传统利用矩形表示人脸区域box＝{x,y,w,h}，包含人脸区域中心位置(x,y)，宽度w和高度h。此类的目标表示方法还存在瓶颈，主要的问题基于区域的特征提取存在大量的背景噪声，这种表示方法难以精确描述旋转人脸的结构信息，对后续分类、定位旋转人脸产生干扰。倾斜椭圆边界框可以简化表示为一个五维向量{x,y,w,h,θ}，此时上述四个参数分别映射到椭圆的圆心坐标(x,y)、长轴w和短轴h，一一对应。其中包含中心点坐标(x,y)、方向角度θ表示边界框中斜率k≤0的边和x轴正方向的夹角、宽度w和高度h。

在测试阶段，给定一张输入图像，送入所述的基本网络中开始提取特征；

然后接入特征金字塔网络的多尺度特征融合结构，将上采样2倍、4倍和8倍的特征图进行多尺度融合；

在特征金字塔网络中每层特征图后接一个方向敏感特征集成网络，用于检测旋转人脸，并输出其人脸分类概率、边界框回归向量和角度类别标签。

图6示出了本发明实施例提供的旋转不变人脸检测方法的检测效果图。为了与现有的基于水平边界框人脸表示方法进行比较，在本发明实施例中将人脸区域可视化为基于倾斜边界框的表示方法。可以看出本发明实施例提供的旋转不变人脸检测方法能够精准地检测任意平面内旋转角度的人脸，且对肤色、光照、视角鲁棒。

此外，本发明实施例还提出一种计算装置，包括摄像装置、存储器和处理器，所述存储器中包括人脸检测程序，所述人脸检测程序被所述处理器执行时实现如下步骤：

另外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中包括人脸检测程序，所述人脸检测程序被处理器执行时，实现上述人脸检测方法的步骤。

本发明之人脸检测计算设备、计算机可读存储介质的具体实施方式与上述人脸检测方法的具体实施方式大致相同，在此不再赘述。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种平面内的旋转不变人脸检测方法，其特征在于，包括以下步骤：

所述利用基本网络提取出输入图像的卷积特征包括采用VGG-16模型的五个卷积块，即conv1-2，conv2-2，conv3-3，conv4-3，conv5-3；且这个五个卷积块依次按照自顶向下的顺序连接；并利用上采样方式提取出输入图像的卷积特征；其中，每个卷积块包括多个卷积层和一个最大池化层；

所述采用多尺度特征层对基本网络的卷积特征进行多尺度融合包括卷积滤波器通过自底向上的方式提取出来自conv5-3，conv4-3，conv3-3卷积块输出的特征图，将上采样方式提取出的结果与特征图进行融合形成多尺度特征；所述方向敏感特征集成网络包括循环卷积层，在所述循环卷积层后通过跳连接有跨通道池化层，在跨通道池化层上预测出第一旋转角度；利用激活函数对第一旋转角度进行处理，获取方向敏感特征；

所述采用属于不同样本的人脸图像数据集对所述卷积神经网络进行训练包括根据标注好的人脸区域与候选框之间的真实边界框重叠区域值，将所述人脸图像数据集划分为正样本、负样本以及部分人脸样本；采用正样本和部分人脸样本训练边界框回归向量，采用正样本和负样本训练人脸分类，采用正样本训练角度分类；

所述训练过程包括分别对人脸分类、边界框和角度分类进行训练，总体损失函数表示为：

其中，L({p_i},{t_i},{θ_i})表示对于每一个训练样本i的总体的训练损失，p_i表示其对应的网络输出的人脸分类得分；若包含人脸则p_i ^*＝1；否则，p_i ^*＝0；t_i表示边界框回归向量，t_i ^*＝[x_i ^*,y_i ^*,w_i ^*,h_i ^*]，x_i ^*,y_i ^*,w_i ^*,h_i ^*依次表示倾斜边界框的真实中心坐标和高、宽；θ_i表示网络输出训练样本i的角度分类得分，θ_i ^*表示该样本的真实类别标注，N_cls表示人脸分类的训练样本数量；N_reg表示边界框回归的训练样本数量；N_ang表示角度分类的训练样本数量；λ_cls表示为人脸分类任务重要性参数，λ_reg表示为边界框回归任务重要性参数，λ_ang表示为角度分类任务重要性参数；

2.根据权利要求1所述一种平面内的旋转不变人脸检测方法，其特征在于，对所述正样本采用随机旋转层方法，将输入的人脸图像或特征图及其标签随机旋转0°，90°，180°或270°；通过对称变换获得相应的边界框和人脸关键点的位置标签；随机旋转训练的人脸图像至[-45°,45°]，通过设置随机旋转层获得平面内任意旋转角度的训练正样本。

3.一种计算装置，包括摄像装置、存储器和处理器，其特征在于，所述存储器中包括人脸检测程序，所述人脸检测程序被所述处理器执行时实现如权利要求1或2所述的一种平面内的旋转不变人脸检测方法的步骤。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括人脸检测程序，所述人脸检测程序被处理器执行时，实现如权利要求1或2所述的一种平面内的旋转不变人脸检测方法的步骤。