CN111553230A - 无约束场景下的基于特征强化的渐进式级联人脸检测方法 - Google Patents

无约束场景下的基于特征强化的渐进式级联人脸检测方法 Download PDF

Info

Publication number
CN111553230A
CN111553230A CN202010319149.1A CN202010319149A CN111553230A CN 111553230 A CN111553230 A CN 111553230A CN 202010319149 A CN202010319149 A CN 202010319149A CN 111553230 A CN111553230 A CN 111553230A
Authority
CN
China
Prior art keywords
branch
loss
feature
progressive
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010319149.1A
Other languages
English (en)
Inventor
徐琴珍
杨哲
刘杨
王路
王驭扬
杨绿溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010319149.1A priority Critical patent/CN111553230A/zh
Publication of CN111553230A publication Critical patent/CN111553230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种在无约束场景下的基于特征强化的渐进式级联人脸检测方案,属于多媒体信号处理领域。本发明将训练集进行数据增广,以VGGNet‑16作为基础特征提取网络,利用特征强化模块实现双分支架构,在预测之前,对各分支应用Max‑Both‑Out策略;训练时搭建迭代式级联结构,设计渐进式损失,即由第一分支多任务损失和第二分支多任务损失加权求和,用以指导训练与学习过程直至收敛,最终实现对目标人脸的检测。本发明不仅关注上下文信息还着重挖掘当前层特征,丰富了面部特征的提取模式,适用于检测难度较高的无约束场景,尤其对微小的、模糊的、遮挡的人脸也可实现精准检测。

Description

无约束场景下的基于特征强化的渐进式级联人脸检测方法
技术领域
本发明属于图像处理技术领域,涉及一种无约束场景下的基于特征强化的渐进式级联人脸检测方法。
背景技术
智能化终端设备的普及深刻地影响着人类的思维方式,对其社交本质有了全新的定义。人脸检测是计算机视觉领域中最贴合日常生活的应用,它将人类从繁重的视觉处理工作中解脱出来,转而用机器去分析和汇总图像、视频中的指定信息,对时代社会的发展产生了深远的影响。在智能手机上,iPhone X、华为Mate20pro分别在IOS平台、安卓平台实现3D人脸识别解锁,更好地保护了隐私;在安防监控中,可以通过人脸识别技术去追踪和捕获不法分子,加强了治安维护力度;在财产安全方面,支付宝率先推出刷脸支付、信用贷款进行身份认证,提高效率的同时也保证了安全性。
早期主流的人脸检测方法,大都基于人工设计的模板匹配技术,对无遮挡的正面清晰人脸的检测效果较好,尽管易于实现,且几乎不受光照、图片成像质量影响,但由于人脸的高可塑性,无法制定出完全有效的人脸模板以适应姿势、尺度等的变化,导致精度受限。仅仅通过机械地比对手工特征与目标人脸之间的自相关性来判定图像中是否存在人脸的传统人脸检测方法并不适用于无约束场景。
随着深度学习的飞速发展,基于卷积神经网络的人脸检测方法以其强大的表征学习与非线性建模能力逐步取代了传统人脸检测方法,显著提升了检测性能,尤其对于毫无遮挡的清晰人脸几乎都可以达到百分之百的准确率。但是,在自然场景下的无约束人脸极易受到遮挡、光照、表情、姿态等外部环境因素的干扰,造成面部特征提取、利用不充分;此外,尺寸较小的低分辨率人脸更是瓶颈所在,以小尺寸锚点对小人脸进行密集采样,极易产生过多的背景负样本,造成误检率上升。现有无约束场景下的人脸检测方法其准确率尚显不足,未能取得令人满意的效果。
发明内容
为解决上述问题,本发明提供了一种无约束场景下的基于特征强化的渐进式级联人脸检测方法,着重在以下两方面进行改进和优化:一方面,充分挖掘当前层特征,利用特征强化模块将单分支架构拓展为双分支架构,并相应地设计出渐进式损失以匹配各分支、层级特征图的将近学习能力,丰富了面部特征的提取模式;另一方面,应用Max-Both-Out策略,并搭建迭代式级联结构,通过交并比阈值逐步递增的子检测器为各阶段匹配更加合适的样本分布。
为了达到上述目的,本发明提供如下技术方案:
无约束场景下的基于特征强化的渐进式级联人脸检测方法,包括如下步骤:
步骤1,对WIDERFACE(目前最为权威的人脸检测基准)训练集进行数据增广;
步骤2,基于步骤1的增广图片,以VGGNet-16(经典的深度卷积神经网络)作为基础特征提取网络,利用特征强化模块实现双分支架构,并对用于预测的各分支、各层级特征图应用Max-Both-Out策略;
步骤3,在训练参数初始化后,搭建迭代式级联结构,利用渐进式损失指导和监督模型的自主学习过程,待模型收敛后保存,并进行检测。
进一步的,所述步骤1具体包括如下子步骤:
步骤1.1:对WIDERFACE训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:
xpreprocess=Crop(Flip(Extend(xinput)))
式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640;
步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:
Figure BDA0002460694260000021
式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。
进一步的,所述步骤2具体包括如下子步骤:
步骤2.1:通过VGGNet-16对增广的输入图片进行基础特征抽取,其中分别选取conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2、conv7_2作最后的预测,其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5;
步骤2.2:利用特征强化模块实现双分支架构,通过不同的维度信息,对步骤2.1中用作预测的原始特征图进行增强,记上层的原始特征图中的神经元细胞为oc(i,j,l),当前层的原始特征图中的非局部神经元细胞为nc(i-ε,j-ε,l),nc(i-ε,j,l),…,nc(i,j+ε,l),nc(i+ε,j+ε,l),则强化后的特征图的神经元细胞ec(i,j,l)表示为:
ec(i,j,l)=fConcat(fDilation(nc(i,j,l)))
nc(i,j,l)=fElement-wise(oc(i,j,l),fUp(oc(i,j,l+1)))
式中,c(i,j,l)是第l层的特征图中坐标为(i,j)所映射的细胞单元,f指向一系列基本的拼接操作、扩张卷积操作、逐元素相乘操作和上采样操作;
步骤2.3:对上述步骤中所得到的各个分支、各个层级的用作预测的特征图应用Max-Both-Out策略,降低训练样本的假阳性,Max-Both-Out策略同时预测Cp个正样本人脸分数和Cn个负样本背景分数,再从中分别选择正、负分数最高的作为最终的目标、背景,相当于集成了Cn+Cp个分类器。
进一步的,步骤2.2中特征强化模块具体实现如下:
(1)使用尺寸为1×1的卷积核对特征图进行归一化处理;
(2)将上采样后的上层特征图与当前特征层进行逐元素相乘;
(3)将特征图分解为三个分支后再各自送入包含不同数量扩张卷积层的子网络;
(4)通过通道拼接方式将以上这三个分支还原成初始特征图的维度。
进一步的,所述步骤3具体包括如下子步骤:
步骤3.1:对训练参数进行初始化;
步骤3.2:在训练时搭建迭代式级联结构,利用候选框与真值框之间的交并比阈值对模型性能进行优化,各个子检测器基于不同阈值的正负样本训练得到,前一个子检测器的输出作为后一个子检测器的输入,如此逐级迭代计算,且正负样本的交并比阈值也随之递增以匹配置信度更高的检测框;
步骤3.3:根据各分支、各层级特征图的渐近学习能力,采用渐进式损失指导和监督模型的自主学习过程,渐进式损失是由第一分支多任务损失和第二分支多任务损失加权求和所得;
步骤3.4:当渐进式损失不再上升,而稳定在一个较小值域时,则停止训练,存储模型,并进行检测;反之,则返回步骤3.1。
进一步的,所述步骤3.1中,优化器选用动量值为0.9的随机梯度下降方法;同时设置权重衰减值为10-5
进一步的,当迭代次数在设置的步进列表{40000,60000,80000}中时,学习率降为原先的0.1。
进一步的,所述3.2中,迭代式级联结构为三级结构。
进一步的,所述步骤3.3中,渐进式损失由第一分支多任务损失和第二分支多任务损失加权求和过程包括如下步骤:
(1)基础的类别打分由softmax损失指导训练,其表达式为:
Figure BDA0002460694260000041
Figure BDA0002460694260000042
式中,xk表示实际的类别标签,zm表示softmax层的输入,f(zm)表示softmax层所预测的输出,T是训练数据集上的类别数;
基础的位置回归由smooth L1损失指导训练,其表达式为:
Figure BDA0002460694260000043
Figure BDA0002460694260000044
式中,y(i)代表真实的位置标签,
Figure BDA0002460694260000045
代表CRFD模型预测的坐标标签信息,Ω表示先验框为正样本的区域集合;
(2)由步骤2.1所得到的原始的第一分支的多任务损失定义如下式:
Figure BDA0002460694260000046
式中,N表示密集的正、负锚点框的总数目,NP表示匹配的正锚点框的数目,Lconf是指人脸和背景这两个类别的softmax损失,Lloc是指当使用锚点ai检测时,预测框ti与真值框gi之间的参数化的smooth L1损失,pi是预测锚点,Lloc是损失,β是用来平衡位置回归与类别打分之间的权重;
(3)由步骤2.2所得到的强化的第二分支的多任务损失定义如下式:
Figure BDA0002460694260000047
式中,N表示密集的正、负锚点框的总数目,NP表示匹配的正锚点框的数目,Lconf是指人脸和背景这两个类别的softmax损失,Lloc是指当使用锚点sai检测时,预测框ti与真值框gi之间的参数化的smooth L1损失;
原始的第一分支中采用ai进行检测,强化的第二分支中采用sai进行检测;
(4)将这两个分支的损失函数加权求和,即得渐进式损失,其表达式为:
LPL=LFBML(a)+λLSBML(sa)
式中,λ是加权系数。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明弥补了现有方法对当前特征层的忽视,在关注上下文线索的同时也充分挖掘当前层的特征图信息,通过特征强化模块实现双分支架构。相应地设计出渐进式损失,补救了现有方法对不同层级特征图的渐进学习能力的欠考虑。
2.本发明进一步改善了正、负样本分布情况,应用Max-Both-Out策略,并搭建迭代式级联结构,缓解了现有方法中样本分布对精度的不利影响,取得了良好的增益。
3.本发明在面向无约束场景下具有尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆等这些属性的人脸时,也能保持较高的检测精确率,抗干扰力较强,具有极高的可塑性和综合性。
附图说明
图1为本发明基于特征强化的渐进式级联人脸检测方法的流程图。
图2为本发明基于特征强化的渐进式级联人脸检测方法的网络模型图。
图3为人脸图像处理增强方式示意图。
图4为基础特征提取网络的特征图输出可视化。
图5为特征强化模块结构图。
图6为双分支架构的特征图输出可视化。
图7为Max-Both-Out策略原理图。
图8为迭代式级联结构示意图。
图9为用训练好的模型对WIDER FACE测试集上的人脸样本进行检测的效果图。
图10为训练好的模型在WIDER FACE的Easy、Medium、Hard验证集上的检测精度。
图11为用训练好的模型对无约束的人脸进行检测的效果图。
附图中照片原图均为彩色图片,因专利提交要求,现修改为灰度形式。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
以WIDER FACE(目前最为权威的人脸检测基准)数据集为例,结合附图对本发明在无约束场景下基于特征强化的渐进式级联人脸检测方法的具体实施方式作进一步详细说明,其流程如图1所示,包括以下步骤:
步骤1:对WIDERFACE训练集进行数据增广,主要包括以下两个方面:
步骤1.1:对WIDERFACE训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:
xpreprocess=Crop(Flip(Extend(xinput)))
式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640。数据增强操作的示例如图3所示,其中第一行是原始的任意尺寸的输入图像,第二行是将相应的图进行尺寸放缩至原先尺寸的4倍,第三、四行是经过翻转、裁剪后的部分样本的图片初步预处理增强结果。
步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰。下面简要对这两种数据增强方式进行介绍:
色彩抖动:考虑到光照强弱、背景氛围、拍摄情况等不尽相同,根据任意生成的随机因子以分别调整输入图像的饱和度、亮度、对比度、锐度。
噪声扰动:主要涉及高斯白噪声、椒盐噪声的加入,其中,高斯噪声是指噪声幅度服从高斯分布,即某一个强度的噪声点个数最大,离这个强度越远的噪声点个数越少,是一种加性噪声;椒盐噪声则是一种脉冲噪声,可通过随机改变某一些像素点的值而在原始图像上产生黑白相间的亮暗点噪声,说得形象一些,就像把椒盐撒在图像上一样,是一种逻辑噪声。
综上,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:
Figure BDA0002460694260000061
式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。数据增强操作的示例如图3所示,第五行是对第四行裁剪出的图片进行色彩抖动增强方式,第六、七行是对第四行裁剪出的图片分别增加不同程度的高斯噪声和椒盐噪声,以增强模型对于任意环境外因的检测稳定性。
步骤2:基于步骤1的增广图片,以VGGNet-16作为基础特征提取网络,利用特征强化模块实现双分支架构,并对用于预测的各分支、各层级特征图应用Max-Both-Out策略,主要包括以下几个步骤:
步骤2.1:通过VGGNet-16对增广的输入图片进行基础特征抽取,其中分别选取conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2、conv7_2作最后的预测,其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5。依次将这些特征图可视化,如图4所示。
步骤2.2:利用特征强化模块实现双分支架构,通过不同的维度信息,对步骤2.1中用作预测的原始特征图进行增强。记上层的原始特征图中的神经元细胞为oc(i,j,l),当前层的原始特征图中的非局部神经元细胞为nc(i-ε,j-ε,l),nc(i-ε,j,l),…,nc(i,j+ε,l),nc(i+ε,j+ε,l),则强化后的特征图的神经元细胞ec(i,j,l)可表示为:
ec(i,j,l)=fConcat(fDilation(nc(i,j,l)))
nc(i,j,l)=fElement-wise(oc(i,j,l),fUp(oc(i,j,l+1)))
式中,c(i,j,l)是第l层的特征图中坐标为(i,j)所映射的细胞单元,f指向一系列基本的拼接(Concatenate)操作、扩张卷积(Dilation Convolution)操作、逐元素相乘(Element-wise Production)操作和上采样(Up Sampling)操作。
特征强化模块的结构如图5所示,具体实现如下:
(1)使用尺寸为1×1的卷积核对特征图进行归一化处理;
(2)将上采样后的上层特征图与当前特征层进行逐元素相乘;
(3)将特征图分解为三个分支后再各自送入包含不同数量扩张卷积层的子网络;这里简要介绍一下扩张卷积层,即在标准的卷积图内注入空洞以增加感受野,此处设置其卷积核大小为3×3,扩张率为3,这个超参数定义了卷积核在处理数据时各个值之间的间距,正常卷积层的扩张率为1。
(4)通过通道拼接方式将以上这三个分支还原成初始特征图的维度。
将拓展为双分支架构后的特征图依次进行可视化,如图6所示,这里选取一张640×640尺寸的训练图片,其中,上一行为原始的第一分支,即步骤2.1中由基础特征提取网络VGGNet-16所输出的特征图,下一行则是强化的第二分支,即经过特征强化模块的相对应的原始的第一分支的输出特征图,可以看出,强化后的第二分支较原始的第一分支的特征图包含了更加丰富的语义信息,可以促进检测性能。
步骤2.3:对上述步骤中所得到的各个分支、各个层级的用作预测的特征图应用Max-Both-Out策略,降低训练样本的假阳性,即预测为真,实际上为假的概率,这一指标可以反映模型的分类能力。Max-Both-Out策略的原理图如图7所示,其中,左边支路分别预测Cp个正样本人脸分数和Cn个负样本背景分数,再从中分别选择正、负分数最高的作为最终的目标、背景,相当于集成了Cn+Cp个分类器。这样可以有效地削弱负样本的预测概率,从而达到降低误检率的作用。在本发明中,Max-Both-Out策略同时预测Cp个正样本人脸分数和Cn个负样本背景分数,对各分支的第一、二层均设置Cp=1、Cn=3,多次预测负样本背景分数对检测小面孔有利;在各分支的其余所有层均设置Cp=3、Cn=1,多次预测正样本人脸分数可尽可能地召回更多的人脸。
步骤3:在训练参数初始化后,搭建迭代式级联结构,利用渐进式损失指导和监督模型的自主学习过程,待模型收敛后即可保存,并进行检测,主要包括以下几个步骤:
步骤3.1:对训练参数进行初始化,具体设置如下表1所示。
表1 训练参数设置
Figure BDA0002460694260000081
其中,优化器选用动量值为0.9的随机梯度下降(SGD,Stochastic GradientDescent)方法;同时,为了防止过拟合,设置权重衰减值为10-5。需要注意的是,考虑到网络学习过程的不断深入,对学习率有如下设置:随着迭代次数增加,当迭代次数在设置的步进列表{35000,45000,55000}中时,学习率降为原先的0.1,这样做可以防止网络参数在接近全局最优解时,由于学习率过大而导致错过最优值的意外情况发生。
步骤3.2:在训练时搭建迭代式级联结构,利用候选框与真值框之间的交并比阈值对模型性能进行优化,即各个子检测器基于不同阈值的正负样本训练得到,前一个子检测器的输出作为后一个子检测器的输入,如此逐级迭代计算,且正负样本的交并比阈值也随之递增以匹配置信度更高的检测框。迭代式级联结构的示意图如图8所示,在本发明中设置三级结构,其中,Hi、Ci、Bi(i=1,2,3)分别表示第i级检测器的网络头部、分类结果、坐标位置。在本发明中,为三级迭代式级联结构的各阶段设置交并比阈值分别为[0.35,0.5,0.6]。
步骤3.3:根据各分支、各层级特征图的渐近学习能力,采用渐进式损失指导和监督模型的自主学习过程,渐进式损失是由第一分支多任务损失和第二分支多任务损失加权求和所得,将其详细阐述如下:
(1)基础的类别打分由softmax损失指导训练,其表达式为:
Figure BDA0002460694260000082
Figure BDA0002460694260000083
式中,xk表示实际的类别标签,zm表示softmax层的输入,f(zm)表示softmax层所预测的输出,T是训练数据集上的类别数。
基础的位置回归由smooth L1损失指导训练,其表达式为:
Figure BDA0002460694260000091
Figure BDA0002460694260000092
式中,y(i)代表真实的位置标签,
Figure BDA0002460694260000093
代表CRFD模型预测的坐标标签信息,Ω表示先验框为正样本的区域集合。
(2)由步骤2.1所得到的原始的第一分支的多任务损失(FBML,First BranchMulti-task Loss)定义如下式:
Figure BDA0002460694260000094
式中,N表示密集的正、负锚点框的总数目,NP表示匹配的正锚点框的数目,Lconf是指人脸和背景这两个类别的softmax损失,Lloc是指当使用锚点ai检测时,预测框ti与真值框gi之间的参数化的smooth L1损失。当
Figure BDA0002460694260000095
时,则说明这个预测锚点pi框定的是正样本,并激活Lloc损失。β是用来平衡位置回归与类别打分之间的权重。
(3)由步骤2.2所得到的强化的第二分支的多任务损失(SBML,Second BranchMulti-task Loss)定义如下式:
Figure BDA0002460694260000096
式中,N表示密集的正、负锚点框的总数目,NP表示匹配的正锚点框的数目,Lconf是指人脸和背景这两个类别的softmax损失,Lloc是指当使用锚点sai检测时,预测框ti与真值框gi之间的参数化的smooth L1损失。当
Figure BDA0002460694260000097
时,则说明这个预测锚点pi框定的是正样本,并激活Lloc损失。β是用来平衡位置回归与类别打分之间的权重。二者的不同之处在于所采用的锚点,原始的第一分支中采用ai进行检测,强化的第二分支中采用sai进行检测。
(4)将这两个分支的损失函数加权求和,即可得到渐进式损失(PL,ProgressiveLoss),其表达式为:
LPL=LFBML(a)+λLSBML(sa)
式中,λ是加权系数,在本发明中λ取值0.5,以匹配锚点尺度的补偿。
综上所述,本发明基于特征强化的渐进式级联人脸检测方法的整体网络结构如图2所示。
步骤3.4:当渐进式损失不再上升,而稳定在一个较小值域(如(0,1])时,则可停止训练;否则,返回步骤3.1。
步骤3.5:停止训练,保存模型,并进行检测。这里要说明的是,为避免引入额外的计算成本,在模型投入实际检测过程中时,仅使用强化的第二分支的输出作为参考。用训练好的模型对WIDER FACE测试集中涉及尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆这些属性的部分人脸样本进行检测,用矩形框标注人脸,如图9所示,在这些高难度的无约束场景下依然能保持较高的检测精度。本发明在公开的WIDER FACE的Easy、Medium、Hard验证集上的精度分别达到95.3%、94.1%、88.5%,如图10所示,取得了良好的增益。本发明应用场景广泛,适用于各类无约束场景下的人脸检测任务,具有极高的综合性和泛化性,如图11所示,采用本发明方法对任意捕获的无约束人脸进行检测,仍具有较高的准确率。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.无约束场景下的基于特征强化的渐进式级联人脸检测方法,其特征在于,包括如下步骤:
步骤1,对WIDERFACE训练集进行数据增广;
步骤2,基于步骤1的增广图片,以VGGNet-16作为基础特征提取网络,利用特征强化模块实现双分支架构,并对用于预测的各分支、各层级特征图应用Max-Both-Out策略;
步骤3,在训练参数初始化后,搭建迭代式级联结构,利用渐进式损失指导和监督模型的自主学习过程,待模型收敛后保存,并进行检测。
2.根据权利要求1所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,其特征在于,所述步骤1具体包括如下子步骤:
步骤1.1:对WIDERFACE训练集中的图片进行水平翻转和随机裁剪,作为初步预处理,具体操作为:首先将输入图像扩展为原先尺寸的4倍,接着再对每一张图片进行镜像水平翻转,最后随机地裁剪出640×640的区域大小,即应用下式进行处理:
xpreprocess=Crop(Flip(Extend(xinput)))
式中,xinput表示输入的训练集图片,Extend操作是采用填充均值的方式进行图片扩展,Flip操作表示随机地进行水平翻转,Crop为随机裁剪操作,xpreprocess则表示相应的初步预处理结果,其尺寸统一为640×640;
步骤1.2:采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰,再次对步骤1.1中得到的初步预处理结果xpreprocess进行不同程度地增强,进而得到综合处理后的增广图片xprocess,如下式所示:
Figure FDA0002460694250000011
式中,Color操作表示色彩抖动方式,Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。
3.根据权利要求1所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,其特征在于,所述步骤2具体包括如下子步骤:
步骤2.1:通过VGGNet-16对增广的输入图片进行基础特征抽取,其中分别选取conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2、conv7_2作最后的预测,其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5;
步骤2.2:利用特征强化模块实现双分支架构,通过不同的维度信息,对步骤2.1中用作预测的原始特征图进行增强,记上层的原始特征图中的神经元细胞为oc(i,j,l),当前层的原始特征图中的非局部神经元细胞为nc(i-ε,j-ε,l),nc(i-ε,j,l),…,nci(,j+ε,l),nc(i+ε,j+ε,l),则强化后的特征图的神经元细胞ec(i,j,l)表示为:
ec(i,j,l)=fConcat(fDilation(nc(i,j,l)))
nc(i,j,l)=fElement-wise(oc(i,j,l),fUp(oc(i,j,l+1)))
式中,c(i,j,l)是第l层的特征图中坐标为(i,j)所映射的细胞单元,f指向一系列基本的拼接操作、扩张卷积操作、逐元素相乘操作和上采样操作;
步骤2.3:对上述步骤中所得到的各个分支、各个层级的用作预测的特征图应用Max-Both-Out策略,降低训练样本的假阳性,Max-Both-Out策略同时预测Cp个正样本人脸分数和Cn个负样本背景分数,再从中分别选择正、负分数最高的作为最终的目标、背景,相当于集成了Cn+Cp个分类器。
4.根据权利要求3所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,其特征在于,步骤2.2中特征强化模块具体实现如下:
(1)使用尺寸为1×1的卷积核对特征图进行归一化处理;
(2)将上采样后的上层特征图与当前特征层进行逐元素相乘;
(3)将特征图分解为三个分支后再各自送入包含不同数量扩张卷积层的子网络;
(4)通过通道拼接方式将以上这三个分支还原成初始特征图的维度。
5.根据权利要求1所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,其特征在于,所述步骤3具体包括如下子步骤:
步骤3.1:对训练参数进行初始化;
步骤3.2:在训练时搭建迭代式级联结构,利用候选框与真值框之间的交并比阈值对模型性能进行优化,各个子检测器基于不同阈值的正负样本训练得到,前一个子检测器的输出作为后一个子检测器的输入,如此逐级迭代计算,且正负样本的交并比阈值也随之递增以匹配置信度更高的检测框;
步骤3.3:根据各分支、各层级特征图的渐近学习能力,采用渐进式损失指导和监督模型的自主学习过程,渐进式损失是由第一分支多任务损失和第二分支多任务损失加权求和所得;
步骤3.4:当渐进式损失不再上升,而稳定在一个较小值域时,则停止训练,存储模型,并进行检测;反之,则返回步骤3.1。
6.根据权利要求5所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,其特征在于,所述步骤3.1中,优化器选用动量值为0.9的随机梯度下降方法;同时设置权重衰减值为10-5
7.根据权利要求6所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,当迭代次数在设置的步进列表{40000,60000,80000}中时,学习率降为原先的0.1。
8.根据权利要求5所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,所述3.2中,迭代式级联结构为三级结构。
9.根据权利要求5所述的无约束场景下的基于特征强化的渐进式级联人脸检测方法,所述步骤3.3中,渐进式损失由第一分支多任务损失和第二分支多任务损失加权求和过程包括如下步骤:
(1)基础的类别打分由softmax损失指导训练,其表达式为:
Figure FDA0002460694250000031
Figure FDA0002460694250000032
式中,xk表示实际的类别标签,zm表示softmax层的输入,f(zm)表示softmax层所预测的输出,T是训练数据集上的类别数;
基础的位置回归由smooth L1损失指导训练,其表达式为:
Figure FDA0002460694250000033
Figure FDA0002460694250000034
式中,y(i)代表真实的位置标签,
Figure FDA0002460694250000035
代表CRFD模型预测的坐标标签信息,Ω表示先验框为正样本的区域集合;
(2)由步骤2.1所得到的原始的第一分支的多任务损失定义如下式:
Figure FDA0002460694250000036
式中,N表示密集的正、负锚点框的总数目,NP表示匹配的正锚点框的数目,Lconf是指人脸和背景这两个类别的softmax损失,Lloc是指当使用锚点ai检测时,预测框ti与真值框gi之间的参数化的smooth L1损失,pi是预测锚点,Lloc是损失,β是用来平衡位置回归与类别打分之间的权重;
(3)由步骤2.2所得到的强化的第二分支的多任务损失定义如下式:
Figure FDA0002460694250000037
式中,N表示密集的正、负锚点框的总数目,NP表示匹配的正锚点框的数目,Lconf是指人脸和背景这两个类别的softmax损失,Lloc是指当使用锚点sai检测时,预测框ti与真值框gi之间的参数化的smooth L1损失;
原始的第一分支中采用ai进行检测,强化的第二分支中采用sai进行检测;
(4)将这两个分支的损失函数加权求和,即得渐进式损失,其表达式为:
LPL=LFBML(a)+λLSBML(sa)
式中,λ是加权系数。
CN202010319149.1A 2020-04-21 2020-04-21 无约束场景下的基于特征强化的渐进式级联人脸检测方法 Pending CN111553230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010319149.1A CN111553230A (zh) 2020-04-21 2020-04-21 无约束场景下的基于特征强化的渐进式级联人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010319149.1A CN111553230A (zh) 2020-04-21 2020-04-21 无约束场景下的基于特征强化的渐进式级联人脸检测方法

Publications (1)

Publication Number Publication Date
CN111553230A true CN111553230A (zh) 2020-08-18

Family

ID=72007533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010319149.1A Pending CN111553230A (zh) 2020-04-21 2020-04-21 无约束场景下的基于特征强化的渐进式级联人脸检测方法

Country Status (1)

Country Link
CN (1) CN111553230A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069993A (zh) * 2020-09-04 2020-12-11 西安西图之光智能科技有限公司 基于五官掩膜约束的密集人脸检测方法及***和存储介质
CN112132140A (zh) * 2020-09-23 2020-12-25 平安国际智慧城市科技股份有限公司 基于人工智能的车品牌识别方法、装置、设备及介质
CN113688785A (zh) * 2021-09-10 2021-11-23 深圳市同为数码科技股份有限公司 基于多监督的人脸识别方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214353A (zh) * 2018-09-27 2019-01-15 云南大学 一种基于剪枝模型的人脸图像快速检测训练方法和装置
CN109472193A (zh) * 2018-09-21 2019-03-15 北京飞搜科技有限公司 人脸检测方法及装置
CN110674714A (zh) * 2019-09-13 2020-01-10 东南大学 基于迁移学习的人脸和人脸关键点联合检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472193A (zh) * 2018-09-21 2019-03-15 北京飞搜科技有限公司 人脸检测方法及装置
CN109214353A (zh) * 2018-09-27 2019-01-15 云南大学 一种基于剪枝模型的人脸图像快速检测训练方法和装置
CN110674714A (zh) * 2019-09-13 2020-01-10 东南大学 基于迁移学习的人脸和人脸关键点联合检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘其嘉: "基于多任务级联卷积网络模型的人脸检测和识别" *
姚树春 等: "基于级联回归网络的多尺度旋转人脸检测方法" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069993A (zh) * 2020-09-04 2020-12-11 西安西图之光智能科技有限公司 基于五官掩膜约束的密集人脸检测方法及***和存储介质
CN112069993B (zh) * 2020-09-04 2024-02-13 西安西图之光智能科技有限公司 基于五官掩膜约束的密集人脸检测方法及***和存储介质
CN112132140A (zh) * 2020-09-23 2020-12-25 平安国际智慧城市科技股份有限公司 基于人工智能的车品牌识别方法、装置、设备及介质
CN112132140B (zh) * 2020-09-23 2022-08-12 平安国际智慧城市科技股份有限公司 基于人工智能的车品牌识别方法、装置、设备及介质
CN113688785A (zh) * 2021-09-10 2021-11-23 深圳市同为数码科技股份有限公司 基于多监督的人脸识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Guo et al. Fake face detection via adaptive manipulation traces extraction network
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN113554089B (zh) 一种图像分类对抗样本防御方法、***及数据处理终端
US11908244B2 (en) Human posture detection utilizing posture reference maps
US20200410212A1 (en) Fast side-face interference resistant face detection method
CN111553230A (zh) 无约束场景下的基于特征强化的渐进式级联人脸检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN111553227A (zh) 基于任务指导的轻量级人脸检测方法
CN111898410A (zh) 无约束场景下的基于上下文推理的人脸检测方法
CN107316029A (zh) 一种活体验证方法及设备
CN111951154B (zh) 包含背景和介质的图片的生成方法及装置
US11138464B2 (en) Image processing device, image processing method, and image processing program
CN114092793B (zh) 适用于复杂水下环境的端到端生物目标检测方法
Yu et al. Pedestrian detection based on improved Faster RCNN algorithm
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN117333753A (zh) 基于pd-yolo的火灾检测方法
CN113011307A (zh) 一种基于深度残差网络的人脸识别身份认证方法
Afzali et al. Genetic programming for feature selection and feature combination in salient object detection
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN115908409A (zh) 光伏片缺陷的检测方法、检测装置、计算机设备和介质
CN112215868B (zh) 基于生成对抗网络的去除手势图像背景的方法
Goel et al. Automatic image colorization using u-net
CN112800941A (zh) 基于非对称辅助信息嵌入网络的人脸反欺诈方法及***
Lu et al. An improved YOLOv5 algorithm for obscured target recognition
CN117496131B (zh) 一种电力作业现场安全行为识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination