CN111553227A - 基于任务指导的轻量级人脸检测方法 - Google Patents

基于任务指导的轻量级人脸检测方法 Download PDF

Info

Publication number
CN111553227A
CN111553227A CN202010318351.2A CN202010318351A CN111553227A CN 111553227 A CN111553227 A CN 111553227A CN 202010318351 A CN202010318351 A CN 202010318351A CN 111553227 A CN111553227 A CN 111553227A
Authority
CN
China
Prior art keywords
anchor
regression
inclusion
anchor point
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010318351.2A
Other languages
English (en)
Inventor
徐琴珍
杨哲
刘杨
王路
王驭扬
杨绿溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010318351.2A priority Critical patent/CN111553227A/zh
Publication of CN111553227A publication Critical patent/CN111553227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于任务指导的轻量级人脸检测方法,先将训练集进行数据增广,通过轻量级骨干网络在有限尺度空间内尽量保持原有特征,接着利用特征整合模块实现双分支架构且精简计算,再引入关联锚点辅助预测,以半监督方式生成人脸周边的头部、身体信息,最后应用任务指导型策略,对分类和回归分而治之,即构建选择性分类组专用于类别打分任务,构建选择性回归组专用于位置回归任务,将二者的损失加权求和,用以指导训练与学习过程直至收敛,进而实现对目标人脸的检测。本发明可达到工业级实时性标准,可被部署于边缘与终端设备上,对计算能力和内存大小的需求较低,且无需预训练网络,较适用于中、低检测难度的无约束场景。

Description

基于任务指导的轻量级人脸检测方法
技术领域
本发明属于图像处理技术领域,涉及一种基于任务指导的轻量级人脸检测方法。
背景技术
当计算机在工业生产、监管等方面逐渐普及,智能化设备内含的算法程序便成为了目前的研究重点。其中,目标检测因其广泛的应用场景是计算机视觉领域内当之无愧的最重要的分支,专注于从数字图像中检测出特定类(如人类、动物或汽车等)的可视化对象实例。人脸检测是目标检测领域里经典的二分类问题,即从图像中辨别出人脸、背景,并给出目标人脸所外接的矩形框的具***置坐标。人脸检测利用机器去处理和分析海量图像、视频所包含的有效信息,在隐私保护、安防监控、社会管理等方面取得了突破性的进展,具体应用如3D人脸识别解锁手机、嫌犯追踪、刷脸验证和支付等。
随着深度学***,其模型大小基本都在百兆量级上,这些方法显然是想通过构建更加复杂的模型、引入更加全面的参数去提高准确率。
然而,当人脸检测被应用于边缘与终端设备上,如移动手机端或嵌入式结构,甚至摄像头内部时,这些设备受限于计算能力和内存大小,完全无法承载模型大小在百兆量级上的一些目前最先进的人脸检测方法。这些方法在公认的人脸检测基准上仅存在微小的性能数值差异,在实际应用中也很难被察觉,故而提高人脸检测在边缘与终端设备上的实时性尤为关键,这样才能在真正意义上实现工业级的落地标准。
实时性对网络模型的推理速度提出要求,意味着其模型结构、参数计算等方面务必精简,这在一定意义上也限制了特征提取的充分性,对检测精度的影响较大,因此在实际应用场景下,具备实时性的轻量级人脸检测方法仍然具有较大的准确率提升空间。而现有技术中尚无适用于边缘与终端设备,且能够在实时性和准确率中取得较好平衡的人脸检测方法。
发明内容
为解决上述问题,本发明提供了一种基于任务指导的轻量级人脸检测方法,着重在以下两方面进行改进和优化:一方面,在实时性与精确度之间权衡,通过轻量级骨干网络在有限尺度空间内尽量保留原有特征,并引入关联锚点,以半监督方式生成人脸周边的头部、身体信息,辅助目标人脸的检测;另一方面,利用特征整合模块实现双分支架构,防止高层语义对低层细节的破坏并精简计算,推理时应用任务指导型策略,对分类和回归分而治之,避免判别力不足的低层特征参与位置回归,缓解了不同层特征图之间的相互干扰,实现了算法模型的高效化。
为了达到上述目的,本发明提供如下技术方案:
基于任务指导的轻量级人脸检测方法,包括如下步骤:
步骤1,对WIDERFACE(目前最为权威的人脸检测基准)训练集进行数据增广;
步骤2,基于步骤1所得到的增广图片,以轻量级骨干网络提取基础特征,利用特征整合模块实现双分支架构,进而提取整合特征,并为用于预测的各分支、各层级特征图引入关联锚点,以半监督方式生成人脸周边的头部、身体信息;
步骤3,在训练参数初始化后,应用任务指导型策略,将分类和回归分而治之,对构建的选择性分类组和选择性回归组的损失进行加权求和,用以指导和监督模型的自主学习过程,待模型收敛后保存并进行检测。
进一步的,所述步骤1具体包括如下子步骤:
步骤1.1:对训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:
xpreprocess=Crop(Flip(Extend(xinput)))
式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640。
步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:
Figure BDA0002460394500000021
式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。
进一步的,所述步骤2具体包括如下子步骤:
步骤2.1:通过轻量级骨干网络对增广的输入图片进行基础特征抽取,轻量级骨干网络采用若干Inception模块,Inception模块包括若干具有不同卷积核大小的卷积分支,激活函数选用串联整流线性单元,分别选取Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最后的预测,特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5;
步骤2.2:利用特征整合模块实现双分支架构,通过转置卷积对步骤2.1中的基本特征进行整合,具体如下式:
φi'=φi·Ψ(φi+1;θ)+φi
式中,φi、φi+1分别表示当前的特征图和较高一层的特征图,Ψ则是应用在高层级特征图上的转置卷积操作,θ代表转置卷积操作的相关参数,φi'为整合后生成的新特征图,·为逐元素相乘;
步骤2.3:为上述步骤中所得到的各个分支、各个层级的用作预测的特征图引入关联锚点,以半监督方式生成目标人脸周围的头部、身体信息,假定相同比例、偏移量的不同人脸具有相似的周边环境特征,以某原始图像中的某目标人脸区域regiontarget为例,锚点选择第i层特征层的第j个锚点anchori,j,步长设为si,则第k个关联锚点的标签定义如下:
Figure BDA0002460394500000031
式中,saa k代表关联锚点的步长,其中k=0,1,…,K;anchori.j·si表示锚点anchori.j在原始图像中对应的区域,anchori.j·si/saa k表示其对应的以步长saa k进行下采样的区域,iou表示计算该下采样区域anchori.j·si/saa k与真实的人脸区域regiontarget的交并比,threshold则是根据交并比判定样本属性的阈值。
进一步的,所述步骤3具体包括如下子步骤:
步骤3.1:对训练参数初始化;
步骤3.2:在预测时,应用任务指导型策略,对分类和回归分而治之,构建选择性分类组专门完成类别打分任务,构建选择性回归组专门完成位置回归任务,再将二者的损失加权求和,用以指导和监督模型的自主学习过程;
步骤3.3:当步骤3.2中所计算得到的加权损失不再上升,而稳定在一个较小值域时,则停止训练,存储模型,并进行检测;反之,则返回步骤3.1。
进一步的,所述步骤3.1中,优化器选用动量值为0.9的随机梯度下降方法;同时设置权重衰减值为10-5
进一步的,当迭代次数在设置的步进列表{40000,60000,80000}中时,学习率降为原先的0.1。
进一步的,所述步骤3.2中,任务指导型策略选取步骤2.1中的轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测,对于选择性分类组而,原始的轻量级骨干网络中的Inception1、Inception2、Inception3首先根据预设的交并比阈值对大部分易区分的负样本进行过滤;对于选择性回归组,原始的轻量级骨干网络中的Inception4、conv5_2、conv6_2首先对锚点的位置进行粗略地调整。
进一步的,所述步骤3.2中,将二者的损失加权求和的过程包括如下步骤:
(1)基础的类别打分由softmax损失指导训练,其表达式为:
Figure BDA0002460394500000041
Figure BDA0002460394500000042
式中,xk表示实际的类别标签,zm表示softmax层的输入,f(zm)表示softmax层所预测的输出,T是训练数据集上的类别数;
基础的位置回归由smooth L1损失指导训练,其表达式为:
Figure BDA0002460394500000043
Figure BDA0002460394500000044
式中,y(i)代表真实的位置标签,
Figure BDA0002460394500000045
代表CRFD模型预测的坐标标签信息,Ω表示先验框为正样本的区域集合;
(2)针对步骤2.3中所得到的关联锚点,定义第k个关联锚点的损失如下:
Figure BDA0002460394500000046
式中,k是关联锚点的编号,k=0,1,2分别表示面部、头部、身体,i是锚点的编号,λ为分类与回归之间的平衡权重,Nk,cls表示用于类别打分的正锚点框数目,Lk,cls则表示人脸、背景这两个类别的softmax损失,pk,i表示第i个锚点被预测为第k个目标的概率,
Figure BDA0002460394500000047
为其对应的真实类别标签,表示如下:
Figure BDA0002460394500000048
式中,saa为步长,Nk,reg表示用于位置回归的正锚点框数目,Lk,reg表示smooth L1损失,tk,i是4维向量,表示第i个锚点被预测为第k个目标的边框坐标,
Figure BDA0002460394500000051
是与某一正样本相关联的真实定位标签,表示如下:
Figure BDA0002460394500000052
式中,
Figure BDA0002460394500000053
分别表示原始真实标签框的中心横坐标、中心纵坐标、总宽度和总高度,
Figure BDA0002460394500000054
则意味着只有在该锚点为正样本时,Lk,reg才被激活,以上这两项损失通过Nk,cls、Nk,reg进行归一化;
(3)针对任务指导型策略,对选择性分类组和选择性回归组的损失分别定义如下:
将选择性分类组(SCG,Selective Classification Group)的损失定义如下:
Figure BDA0002460394500000055
式中,k是关联锚点的编号,k=0,1,2分别表示面部、头部、身体,i是锚点的索引,Nk,cls和N'k,cls分别表示用于类别打分的初始的、过滤后的正锚点框数目,Lk,cls则表示人脸、背景这两个类别的softmax损失,pk,i、qk,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标的概率,
Figure BDA0002460394500000056
为其对应的真实类别标签;
将选择性分类组(SRG,Selective Regression Group)的损失定义如下:
Figure BDA0002460394500000057
式中,k是关联锚点的编号,k=0,1,2分别表示面部、头部、身体,i是锚点的索引,Nk,reg和N'k,reg分别表示用于位置回归的初始的、过滤后的正锚点框数目,Lk,reg表示smoothL1损失,而
Figure BDA0002460394500000058
则意味着只有在该锚点为正样本时,Lk,reg函数才有效,tk,i、xk,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标的边框坐标,
Figure BDA0002460394500000059
是与某一正样本相关联的真实定位标签;
(4)将选择性分类组和选择性回归组的损失进行加权求和,即得到总损失函数如下:
L=αLSCG+βLSRG
式中,α和β是平衡这二者的超参数。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明弥补了现有方法对人脸检测的实时性和工业级落地标准的忽略,构建轻量级骨干网络,在有限尺度空间内尽量保留原有特征。在实时性与精确率之间权衡,引入关联锚点,以半监督方式生成面部周围的头部、身体标签,辅助目标人脸的检测,补救了现有方法对面部环境特征的非充分利用性。
2.本发明进一步减轻了不同层特征图之间的相互干扰,采用特征整合模块实现双分支架构,在防止高层语义破坏低层细节的同时也精简了计算,在推理时应用任务指导型策略,避免判别力不足的低层特征参与位置回归,将分类和回归分而治之,实现了算法模型的高效化,缓解了现有方法中不同层特征图之间的相互干扰对精度的不利影响,取得了良好的增益。
3.本发明可达到工业级实时性标准,可被部署于边缘与终端设备上,对计算能力和内存大小的需求较低,且不需要预训练网络,可以从零开始训练和检测。
4.本发明在面向无约束场景下具有尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆等这些属性的中、低检测难度的人脸时,也能保持较高的检测精确率,具有极高的实时性和综合性。
附图说明
图1为本发明基于任务指导的轻量级人脸检测方法的流程图。
图2为本发明基于任务指导的轻量级人脸检测方法的网络模型图。
图3为人脸图像处理增强方式示意图。
图4为Inception模块(一种以密集成分近似最优的局部稀疏结构)原理图。
图5为轻量级骨干网络的结构及相关参数设置。
图6为特征整合模块实现原理示意图。
图7为关联锚点示例图。
图8为任务指导型策略原理图。
图9为用训练好的模型对WIDER FACE测试集上的人脸样本进行检测的效果图。
图10为训练好的模型在WIDER FACE的Easy、Medium、Hard验证集上的检测精度。
图11为用训练好的模型对无约束的人脸进行检测的效果图。
附图中照片原图均为彩色图片,因专利提交要求,现修改为灰度形式。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
以WIDER FACE(目前最为权威的人脸检测基准)数据集为例,结合附图对本发明方法具体实施步骤作进一步详细说明。本发明提供的基于任务指导的轻量级人脸检测方法,其流程如图1所示,包括以下步骤:
步骤1:对WIDERFACE训练集进行数据增广,主要包括以下两个方面:
步骤1.1:对WIDERFACE训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:
xpreprocess=Crop(Flip(Extend(xinput)))
式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640。数据增强操作的示例如图3所示,其中第一行是原始的任意尺寸的输入图像,第二行是将相应的图进行尺寸放缩至原先尺寸的4倍,第三、四行是经过翻转、裁剪后的部分样本的图片初步预处理增强结果。
步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰。下面简要对这两种数据增强方式进行介绍:
色彩抖动:考虑到光照强弱、背景氛围、拍摄情况等不尽相同,根据任意生成的随机因子以分别调整输入图像的饱和度、亮度、对比度、锐度。
噪声扰动:主要涉及高斯白噪声、椒盐噪声的加入,其中,高斯噪声是指噪声幅度服从高斯分布,即某一个强度的噪声点个数最大,离这个强度越远的噪声点个数越少,是一种加性噪声;椒盐噪声则是一种脉冲噪声,可通过随机改变某一些像素点的值而在原始图像上产生黑白相间的亮暗点噪声,说得形象一些,就像把椒盐撒在图像上一样,是一种逻辑噪声。
综上,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:
Figure BDA0002460394500000071
式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。数据增强操作的示例如图3所示,第五行是对第四行裁剪出的图片进行色彩抖动增强方式,第六、七行是对第四行裁剪出的图片分别增加不同程度的高斯噪声和椒盐噪声,以增强模型对于任意环境外因的检测稳定性。
步骤2:基于步骤1的增广图片,以轻量级骨干网络提取基础特征,利用特征整合模块实现双分支架构,进而提取整合特征,并为用于预测的各分支、各层级特征图引入关联锚点,以半监督方式生成人脸周边的头部、身体信息,主要包括以下几个步骤:
步骤2.1:通过轻量级骨干网络对增广的输入图片进行基础特征抽取,其中,采用Inception模块(一种以密集成分近似最优的局部稀疏结构),其原理如图4所示,它是由多个具有不同卷积核大小的卷积分支所组成的,这些分支能够提供更加丰富、全面的感受野。激活函数选用串联整流线性单元,以减少输出的通道数。轻量级骨干网络的整体架构及其相关参数设置如图5所示,其中,分别选取Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最后的预测,其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5。
步骤2.2:利用特征整合模块实现双分支架构,通过转置卷积对步骤2.1中的基本特征进行整合,在数学上可表示为:
φi'=φi·Ψ(φi+1;θ)+φi
式中,φi、φi+1分别表示当前的特征图和较高一层的特征图,Ψ则是应用在高层级特征图上的转置卷积操作,θ代表转置卷积操作的相关参数。等式左边的φi'即为整合后生成的新特征图,它将不断更新当前的特征映射,并持续参与到后续与较低层级特征图的融合过程中,一直到最浅层。逐元素相乘(表示为·)可看作是结合了空间与通道的注意力以使得各层级特征图之间的信息交互最大化。
特征整合模块的实现原理如图6所示,其中,N、C、H、W分别表示批量大小、通道数量、输入高度、输入宽度,这里应用转置卷积可以将空间分辨率和通道的改变一步到位,且不存在冗余计算。
步骤2.3:为上述步骤中所得到的各个分支、各个层级的用作预测的特征图引入关联锚点,以半监督方式生成目标人脸周围的头部、身体信息。这里假定相同比例、偏移量的不同人脸具有相似的周边环境特征,以某原始图像中的某目标人脸区域regiontarget为例,锚点选择第i层特征层的第j个锚点anchori,j,步长设为si,则第k个关联锚点的标签定义如下:
Figure BDA0002460394500000081
式中,saa k代表关联锚点的步长,其中k=0,1,…,K。anchori.j·si表示锚点anchori.j在原始图像中对应的区域,anchori.j·si/saa k表示其对应的以步长saa k进行下采样的区域,iou表示计算该下采样区域anchori.j·si/saa k与真实的人脸区域regiontarget的交并比(交叠率),threshold则是根据交并比判定样本属性的阈值。在本发明中,设定关联锚点的步长saa为2,因为相邻的预测层的步长为2;同时设定K=2,则label0、label1、label2分别代表人脸面部、头部、身体的标签,即每一个目标人脸均会在3个连续的预测层中生成3个预测结果,依次为其面部、头部及身体;交并比阈值threshold设置为0.3,尽可能地引进更多的正样本。
这里基于步骤2.1中所搭建的轻量级骨干网络,以图7为例,具体说明关联锚点的实现。图中黄色框中的人脸尺寸为128,根据面部本身在Inception4上生成面部标签,根据目标人脸的头部在conv5_2上生成头部标签(尺寸约为256),根据目标人脸的身体在conv6_2上生成身体标签(尺寸约为512);类似地,图中绿色框中的人脸尺寸为16,也可以从关联锚点处得到监督特征,Inception1上的关联锚点是通过原始人脸标注的,Inception2上的关联锚点是通过相应的尺寸约为32的头部标注的,Inception3上的关联锚点是通过相应的尺寸约为64的身体标注的。
步骤3:在训练参数初始化后,应用任务指导型策略,将分类和回归分而治之,即对构建的选择性分类组和选择性回归组的损失进行加权求和,用以指导和监督模型的自主学习过程,待模型收敛后即可保存,并进行检测,主要包括以下几个步骤:
步骤3.1:对训练参数进行初始化,具体设置如下表1所示。
表1训练参数设置
Figure BDA0002460394500000091
其中,优化器选用动量值为0.9的随机梯度下降(SGD,Stochastic GradientDescent)方法;同时,为了防止过拟合,设置权重衰减值为10-5。需要注意的是,考虑到网络学习过程的不断深入,对学习率有如下设置:随着迭代次数增加,当迭代次数在设置的步进列表{40000,60000,80000}中时,学习率降为原先的0.1,这样做可以防止网络参数在接近全局最优解时,由于学习率过大而导致错过最优值的意外情况发生。
这里无需预训练网络,可从零开始训练,网络的初始化权重可通过Xavier方法(一种常用的深度学习参数初始化方法)随机生成。
步骤3.2:在预测时,应用任务指导型策略,对分类和回归分而治之,即构建选择性分类组专用于类别打分任务,构建选择性回归组专用于位置回归任务。
任务指导型策略的原理图如图8所示,这里选取步骤2.1中的轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测,其特征层名称后面加了“′”的则表示经过步骤2.2中的特征整合模块处理后的相对应的特征层。就选择性分类组而言,原始的轻量级骨干网络中的Inception1、Inception2、Inception3首先根据预设的交并比阈值对大部分易区分的负样本进行过滤,以此为Inception1′、Inception2′、Inception3′省去了不必要的搜索计算成本,在一定程度上降低了正、负样本分布不均衡所导致的误检率升高的风险;至于较高层级的特征映射,并无必要构建选择性分类组,主要是出于简化模型参数的考虑。就选择性回归组而言,原始的轻量级骨干网络中的Inception4、conv5_2、conv6_2首先对锚点的位置进行粗略地调整,以此为Inception4′、conv5_2′、conv6_2′提供更好的初始化,这是一种由粗到细的过程;仅作用于高层级是因为,低层级特征本身的鲁棒性就不强,表达力也明显不足,盲目地使其加入回归计算却会造成较多误判,从而使得检测精度不升反降。
在本发明中,将选择性分类组的损失和选择性回归组的损失加权求和,用以指导和监督模型的自主学习过程,将其详细阐述如下:
(1)基础的类别打分由softmax损失指导训练,其表达式为:
Figure BDA0002460394500000101
Figure BDA0002460394500000102
式中,xk表示实际的类别标签,zm表示softmax层的输入,f(zm)表示softmax层所预测的输出,T是训练数据集上的类别数。
基础的位置回归由smooth L1损失指导训练,其表达式为:
Figure BDA0002460394500000103
Figure BDA0002460394500000104
式中,y(i)代表真实的位置标签,
Figure BDA0002460394500000105
代表CRFD模型预测的坐标标签信息,Ω表示先验框为正样本的区域集合。
(2)针对步骤2.3中所得到的关联锚点,定义第k个关联锚点的损失如下:
Figure BDA0002460394500000106
式中,k是关联锚点的编号(k=0,1,2分别表示面部、头部、身体),i是锚点的编号,λ为分类与回归之间的平衡权重,Nk,cls表示用于类别打分的正锚点框数目,Lk,cls则表示人脸、背景这两个类别的softmax损失,pk,i表示第i个锚点被预测为第k个目标(判断为面部、头部或身体)的概率,
Figure BDA0002460394500000107
为其对应的真实类别标签,表示如下:
Figure BDA0002460394500000108
式中,步长saa设为2,因为相邻预测层的步长也为2。举个例子,当k=0时,真值标签即为真实的面部标签;当k≥1时,将根据下采样后的锚点与人脸真实值的匹配情况来判定相应的标签。此外,Nk,reg表示用于位置回归的正锚点框数目,Lk,reg表示smooth L1损失,tk,i是4维向量,表示第i个锚点被预测为第k个目标的边框坐标,
Figure BDA0002460394500000111
是与某一正样本相关联的真实定位标签,表示如下:
Figure BDA0002460394500000112
式中,
Figure BDA0002460394500000113
分别表示原始真实标签框的中心横坐标、中心纵坐标、总宽度和总高度。
Figure BDA0002460394500000114
则意味着只有在该锚点为正样本时,Lk,reg才被激活。以上这两项损失通过Nk,cls、Nk,reg进行归一化。
(3)针对任务指导型策略,对选择性分类组和选择性回归组的损失分别定义如下:
将选择性分类组(SCG,Selective Classification Group)的损失定义如下:
Figure BDA0002460394500000115
式中,k是关联锚点的编号(k=0,1,2分别表示面部、头部、身体),i是锚点的索引,Nk,cls和N'k,cls分别表示用于类别打分的初始的、过滤后的正锚点框数目,Lk,cls则表示人脸、背景这两个类别的softmax损失,pk,i、qk,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标(判断为面部、头部或身体)的概率,
Figure BDA0002460394500000116
为其对应的真实类别标签。
将选择性分类组(SRG,Selective Regression Group)的损失定义如下:
Figure BDA0002460394500000117
式中,k是关联锚点的编号(k=0,1,2分别表示面部、头部、身体),i是锚点的索引,Nk,reg和N'k,reg分别表示用于位置回归的初始的、过滤后的正锚点框数目,Lk,reg表示smoothL1损失,而
Figure BDA0002460394500000118
则意味着只有在该锚点为正样本时,Lk,reg函数才有效,tk,i、xk,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标的边框坐标,
Figure BDA0002460394500000119
是与某一正样本相关联的真实定位标签。
(4)将选择性分类组和选择性回归组的损失进行加权求和,即可得到总损失函数如下:
L=αLSCG+βLSRG
式中,α和β是平衡这二者的超参数,这里为α、β分别赋值为1、4,主要是考虑到选择性回归组中的正锚点框数目大约是选择性分类组中的4倍。
综上所述,本发明基于任务指导的轻量级人脸检测方法的整体网络结构如图2所示,选取轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测,其特征层名称后面加了“′”的则表示经过特征整合模块处理后的相对应的特征层,图中红色的线表示在相应的特征层根据面部自身而生成的面部标签,绿色的线表示在对应特征层的下一层根据当前目标人脸的头部所生成的头部标签,蓝色的线则表示在再下一层特征层根据当前目标人脸的身体所生成的身体标签。
步骤3.3:当步骤3.2中所计算得到的加权损失不再上升,而稳定在一个较小值域(例如(0,1])时,则可停止训练;否则,返回步骤3.1。
步骤3.4:停止训练,保存模型,并进行检测。这里要说明的是,为避免引入额外的计算成本,在模型投入实际检测过程中时,仅使用整合后的分支输出作为参考。用训练好的模型对WIDER FACE测试集中涉及尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆这些属性的部分人脸样本进行检测,用矩形框标注人脸,如图9所示,尤其在中、低难度的无约束场景下达到了较高的检测精度。本发明在公开的WIDER FACE的Easy、Medium、Hard验证集上的精度分别达到89.9%、87.6%、50.7%,如图10所示,在轻量级网络的范畴内取得了良好的增益。本发明适用于无约束场景下的中、低难度的人脸检测场景,具有较高的泛化性和综合性,如图11所示,采用本发明方法对任意捕获的无约束人脸进行检测,仍具有较高的准确率。本发明在GPU(图形处理器)平台上的每秒可检测图片数高达146张,在只用CPU(中央处理器)的情况下,每秒也可以检测115幅图片,极大地满足了人脸检测任务中的实时性要求。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.基于任务指导的轻量级人脸检测方法,其特征在于,包括如下步骤:
步骤1,对WIDERFACE训练集进行数据增广;
步骤2,基于步骤1所得到的增广图片,以轻量级骨干网络提取基础特征,利用特征整合模块实现双分支架构,进而提取整合特征,并为用于预测的各分支、各层级特征图引入关联锚点,以半监督方式生成人脸周边的头部、身体信息;
步骤3,在训练参数初始化后,应用任务指导型策略,将分类和回归分而治之,对构建的选择性分类组和选择性回归组的损失进行加权求和,用以指导和监督模型的自主学习过程,待模型收敛后保存并进行检测。
2.根据权利要求1所述的基于任务指导的轻量级人脸检测方法,其特征在于,所述步骤1具体包括如下子步骤:
步骤1.1:对训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:
xpreprocess=Crop(Flip(Extend(xinput)))
式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640;
步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:
Figure FDA0002460394490000011
式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。
3.根据权利要求1所述的基于任务指导的轻量级人脸检测方法,其特征在于,所述步骤2具体包括如下子步骤:
步骤2.1:通过轻量级骨干网络对增广的输入图片进行基础特征抽取,轻量级骨干网络采用若干Inception模块,Inception模块包括若干具有不同卷积核大小的卷积分支,激活函数选用串联整流线性单元,分别选取Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最后的预测,特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5;
步骤2.2:利用特征整合模块实现双分支架构,通过转置卷积对步骤2.1中的基本特征进行整合,具体如下式:
φi'=φi·Ψ(φi+1;θ)+φi
式中,φi、φi+1分别表示当前的特征图和较高一层的特征图,Ψ则是应用在高层级特征图上的转置卷积操作,θ代表转置卷积操作的相关参数,φi'为整合后生成的新特征图,·为逐元素相乘;
步骤2.3:为上述步骤中所得到的各个分支、各个层级的用作预测的特征图引入关联锚点,以半监督方式生成目标人脸周围的头部、身体信息,假定相同比例、偏移量的不同人脸具有相似的周边环境特征,以某原始图像中的某目标人脸区域regiontarget为例,锚点选择第i层特征层的第j个锚点anchori,j,步长设为si,则第k个关联锚点的标签定义如下:
Figure FDA0002460394490000021
式中,saa k代表关联锚点的步长,其中k=0,1,…,K;anchori.j·si表示锚点anchori.j在原始图像中对应的区域,anchori.j·si/saa k表示其对应的以步长saa k进行下采样的区域,iou表示计算该下采样区域anchori.j·si/saa k与真实的人脸区域regiontarget的交并比,threshold则是根据交并比判定样本属性的阈值。
4.根据权利要求1所述的基于任务指导的轻量级人脸检测方法,其特征在于,所述步骤3具体包括如下子步骤:
步骤3.1:对训练参数初始化;
步骤3.2:在预测时,应用任务指导型策略,对分类和回归分而治之,构建选择性分类组专门完成类别打分任务,构建选择性回归组专门完成位置回归任务,再将二者的损失加权求和,用以指导和监督模型的自主学习过程;
步骤3.3:当步骤3.2中所计算得到的加权损失不再上升,而稳定在一个较小值域时,则停止训练,存储模型,并进行检测;反之,则返回步骤3.1。
5.根据权利要求4所述的基于任务指导的轻量级人脸检测方法,其特征在于,所述步骤3.1中,优化器选用动量值为0.9的随机梯度下降方法;同时设置权重衰减值为10-5
6.根据权利要求5所述的基于任务指导的轻量级人脸检测方法,其特征在于,当迭代次数在设置的步进列表{40000,60000,80000}中时,学习率降为原先的0.1。
7.根据权利要求4所述的基于任务指导的轻量级人脸检测方法,其特征在于,所述步骤3.2中,任务指导型策略选取步骤2.1中的轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测,对于选择性分类组而,原始的轻量级骨干网络中的Inception1、Inception2、Inception3首先根据预设的交并比阈值对大部分易区分的负样本进行过滤;对于选择性回归组,原始的轻量级骨干网络中的Inception4、conv5_2、conv6_2首先对锚点的位置进行粗略地调整。
8.根据权利要求4所述的基于任务指导的轻量级人脸检测方法,其特征在于,所述步骤3.2中,将二者的损失加权求和的过程包括如下步骤:
(1)基础的类别打分由softmax损失指导训练,其表达式为:
Figure FDA0002460394490000031
Figure FDA0002460394490000032
式中,xk表示实际的类别标签,zm表示softmax层的输入,f(zm)表示softmax层所预测的输出,T是训练数据集上的类别数;
基础的位置回归由smooth L1损失指导训练,其表达式为:
Figure FDA0002460394490000033
Figure FDA0002460394490000034
式中,y(i)代表真实的位置标签,
Figure FDA0002460394490000035
代表CRFD模型预测的坐标标签信息,Ω表示先验框为正样本的区域集合;
(2)针对步骤2.3中所得到的关联锚点,定义第k个关联锚点的损失如下:
Figure FDA0002460394490000036
式中,k是关联锚点的编号,k=0,1,2分别表示面部、头部、身体,i是锚点的编号,λ为分类与回归之间的平衡权重,Nk,cls表示用于类别打分的正锚点框数目,Lk,cls则表示人脸、背景这两个类别的softmax损失,pk,i表示第i个锚点被预测为第k个目标的概率,
Figure FDA0002460394490000037
为其对应的真实类别标签,表示如下:
Figure FDA0002460394490000038
式中,saa为步长,Nk,reg表示用于位置回归的正锚点框数目,Lk,reg表示smooth L1损失,tk,i是4维向量,表示第i个锚点被预测为第k个目标的边框坐标,
Figure FDA0002460394490000041
是与某一正样本相关联的真实定位标签,表示如下:
Figure FDA0002460394490000042
式中,
Figure FDA0002460394490000043
分别表示原始真实标签框的中心横坐标、中心纵坐标、总宽度和总高度,
Figure FDA00024603944900000410
则意味着只有在该锚点为正样本时,Lk,reg才被激活,以上这两项损失通过Nk,cls、Nk,reg进行归一化;
(3)针对任务指导型策略,对选择性分类组和选择性回归组的损失分别定义如下:
将选择性分类组(SCG,Selective Classification Group)的损失定义如下:
Figure FDA0002460394490000045
式中,k是关联锚点的编号,k=0,1,2分别表示面部、头部、身体,i是锚点的索引,Nk,cls和N'k,cls分别表示用于类别打分的初始的、过滤后的正锚点框数目,Lk,cls则表示人脸、背景这两个类别的softmax损失,pk,i、qk,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标的概率,
Figure FDA0002460394490000046
为其对应的真实类别标签;
将选择性分类组(SRG,Selective Regression Group)的损失定义如下:
Figure FDA0002460394490000047
式中,k是关联锚点的编号,k=0,1,2分别表示面部、头部、身体,i是锚点的索引,Nk,reg和N'k,reg分别表示用于位置回归的初始的、过滤后的正锚点框数目,Lk,reg表示smooth L1损失,而
Figure FDA00024603944900000411
则意味着只有在该锚点为正样本时,Lk,reg函数才有效,tk,i、xk,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标的边框坐标,
Figure FDA0002460394490000049
是与某一正样本相关联的真实定位标签;
(4)将选择性分类组和选择性回归组的损失进行加权求和,即得到总损失函数如下:
L=αLSCG+βLSRG
式中,α和β是平衡这二者的超参数。
CN202010318351.2A 2020-04-21 2020-04-21 基于任务指导的轻量级人脸检测方法 Pending CN111553227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318351.2A CN111553227A (zh) 2020-04-21 2020-04-21 基于任务指导的轻量级人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318351.2A CN111553227A (zh) 2020-04-21 2020-04-21 基于任务指导的轻量级人脸检测方法

Publications (1)

Publication Number Publication Date
CN111553227A true CN111553227A (zh) 2020-08-18

Family

ID=72000232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318351.2A Pending CN111553227A (zh) 2020-04-21 2020-04-21 基于任务指导的轻量级人脸检测方法

Country Status (1)

Country Link
CN (1) CN111553227A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560825A (zh) * 2021-02-23 2021-03-26 北京澎思科技有限公司 人脸检测方法、装置、电子设备以及可读存储介质
CN112633065A (zh) * 2020-11-19 2021-04-09 特斯联科技集团有限公司 一种基于数据增强的人脸检测方法、***、存储介质及终端
CN113963713A (zh) * 2021-10-11 2022-01-21 稿定(厦门)科技有限公司 音频降噪方法及装置
CN116363138A (zh) * 2023-06-01 2023-06-30 湖南大学 一种用于垃圾分拣图像的轻量化集成识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664893A (zh) * 2018-04-03 2018-10-16 福州海景科技开发有限公司 一种人脸检测方法及存储介质
CN109919097A (zh) * 2019-03-08 2019-06-21 中国科学院自动化研究所 基于多任务学习的人脸和关键点联合检测***、方法
WO2019169895A1 (zh) * 2018-03-09 2019-09-12 华南理工大学 抗侧脸干扰的人脸快速检测方法
CN110458133A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于生成式对抗网络的轻量级人脸检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019169895A1 (zh) * 2018-03-09 2019-09-12 华南理工大学 抗侧脸干扰的人脸快速检测方法
CN108664893A (zh) * 2018-04-03 2018-10-16 福州海景科技开发有限公司 一种人脸检测方法及存储介质
CN109919097A (zh) * 2019-03-08 2019-06-21 中国科学院自动化研究所 基于多任务学习的人脸和关键点联合检测***、方法
CN110458133A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于生成式对抗网络的轻量级人脸检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尹茜;: "基于轻量级神经网络的人脸检测算法" *
杨哲: "无约束场景下人脸检测方法研究与轻量级实现" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633065A (zh) * 2020-11-19 2021-04-09 特斯联科技集团有限公司 一种基于数据增强的人脸检测方法、***、存储介质及终端
CN112560825A (zh) * 2021-02-23 2021-03-26 北京澎思科技有限公司 人脸检测方法、装置、电子设备以及可读存储介质
CN113963713A (zh) * 2021-10-11 2022-01-21 稿定(厦门)科技有限公司 音频降噪方法及装置
CN116363138A (zh) * 2023-06-01 2023-06-30 湖南大学 一种用于垃圾分拣图像的轻量化集成识别方法
CN116363138B (zh) * 2023-06-01 2023-08-22 湖南大学 一种用于垃圾分拣图像的轻量化集成识别方法

Similar Documents

Publication Publication Date Title
Yeh et al. Lightweight deep neural network for joint learning of underwater object detection and color conversion
Han et al. Underwater image processing and object detection based on deep CNN method
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN111553227A (zh) 基于任务指导的轻量级人脸检测方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN115497005A (zh) 一种融合特征转移与注意力机制的yolov4遥感目标检测方法
CN112084917A (zh) 一种活体检测方法及装置
CN113361495A (zh) 人脸图像相似度的计算方法、装置、设备及存储介质
Wang et al. Deep learning-based visual detection of marine organisms: A survey
CN114092793B (zh) 适用于复杂水下环境的端到端生物目标检测方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN111898410A (zh) 无约束场景下的基于上下文推理的人脸检测方法
CN116188790A (zh) 摄像头遮挡检测方法、装置、存储介质及电子设备
CN110135435B (zh) 一种基于广度学习***的显著性检测方法及装置
CN113128308A (zh) 一种港口场景下的行人检测方法、装置、设备及介质
Duffner et al. A neural scheme for robust detection of transparent logos in TV programs
CN113011307A (zh) 一种基于深度残差网络的人脸识别身份认证方法
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
Obeso et al. Introduction of explicit visual saliency in training of deep cnns: Application to architectural styles classification
Afzali et al. Genetic programming for feature selection and feature combination in salient object detection
CN113723181B (zh) 一种无人机航拍目标检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination