CN108520219B - 一种卷积神经网络特征融合的多尺度快速人脸检测方法 - Google Patents
一种卷积神经网络特征融合的多尺度快速人脸检测方法 Download PDFInfo
- Publication number
- CN108520219B CN108520219B CN201810276795.7A CN201810276795A CN108520219B CN 108520219 B CN108520219 B CN 108520219B CN 201810276795 A CN201810276795 A CN 201810276795A CN 108520219 B CN108520219 B CN 108520219B
- Authority
- CN
- China
- Prior art keywords
- neural network
- detection
- layer
- model
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种卷积神经网络特征融合的多尺度快速人脸检测方法,包括以下步骤:步骤1:以SSD快速目标检测方法的模型结构为基础,改造SSD中的特征提取方法,加入特征融合方法,获得改造过的检测模型;步骤2:对步骤1中改造过的检测模型进行针对人脸检测的训练,获得训练好的深度神经网络模型;步骤3:使用步骤2训练好的深度神经网络模型对待检测图片进行计算,得到模型输出结果。本发明能快速对图像中的人脸进行识别并精确定位人脸的位置,从而将人脸从复杂背景分离出来。为图像中人的身份验证和跟踪提供基础。
Description
技术领域
本发明属于计算机数字图像处理与模式识别技术领域,特别涉及一种人脸检测方法。
背景技术
随着我国监控摄像头数目的增加,每天都会产生海量监控视频数据。在此背景下,计算机辅助的监控视频内容分析技术变得必要而且迫切。在监控视频中,我们监控的对象主要是人,而人脸特征是我们使用图像信息进行身份识别和验证的最重要信息。人脸检测能在图片中定位出所有人脸所在的位置,将人脸与背景分离,是之后的人脸表征和人脸识别的前提。所以,人脸检测是监控视频内容分析的第一步。
目前的目标检测的方法主要有传统方法和基于深度学习的方法两种。传统方法与基于深度学习的方法的基本流程是一样的,都是先对图像提取特征,然后在特征图上对图像各个部分进行前景背景分类。传统的目标检测方法使用的特征大多是凭人类经验设计的特征,如Harr,HOG和LBP等人工特征。这些特征基于人类的经验,并不能全面地描述图像的特征。另外传统方法的分类器主要采用的是SVM,Adaboost等分类器,这些分类器对于图像的分类精度不及使用卷积神经网络的分类方法。基于深度学习的检测方法是训练一个卷积神经网络(CNN)提取深度特征,在这种特征的基础上训练分类器。基于深度学习的检测方法大致可分为两种类型。一种是基于候选区域的检测方法,另一种是直接回归的检测方法。基于候选区域的检测方法的代表方法是Ross Girshick团队提出来的Faster R-CNN方法,详见文献:Shaoqing Ren,Kaiming He,Ross Girshick,Jian Sun:Faster R-CNN:TowardsReal-Time Object Detection with Region Proposal Networks.NIPS 2015:91-99.其基本思想是首先通过CNN对图像提取一个粗略的特征,然后通过这个特征提取可能存在物体的候选框,再将可能的候选框对应的特征图上的部分截取出来,送入最终的判决器分类和回归检测框。这种方法检测精度高,但是由于有两个阶段判断是否存在物体,导致检测速度很慢,无法达到实时。直接回归的检测方法的代表方法有SSD目标检测算法,详见文献:W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.-Y.Fu,and A.C.Berg.SSD:Singleshot multibox detector.ECCV,pages 21–37,2016.其基本思想是抛弃Faster R-CNN的两个阶段的判断,直接在CNN提取的特征图上做分类和回归得到最终结果。这种单阶段的检测方法速度很快,也使它能够同时在CNN的不同深度的特征上同时做检测。虽然检测速度快,但是这种方法的缺点是性能较差,漏检和误检率较高,检测框的精准度也不够高。
使用人脸检测方法处理视频,对单帧检测速度有着较高要求。但是Faster R-CNN方法检测速度太慢,目前还无法做到实时。SSD方法虽然检测速度快,但是漏检率和误检率等检测精度指标都相对较差,检测框定位的精准度也不够高。
发明内容
本发明的目的在于提供一种深度特征融合的多尺度快速人脸检测方法,在图片中定位出所有人脸所在的位置,以克服SSD快速目标检测方法漏检率和误检率都较高,并且检测框定位的精准度较差的不足的问题。
为了实现上述目的,本发明采用如下技术方案:
一种卷积神经网络特征融合的多尺度快速人脸检测方法,包括以下步骤:
步骤1:以SSD快速目标检测方法的模型结构为基础,改造SSD中的特征提取方法,加入特征融合方法,获得改造过的检测模型;
步骤2:对步骤1中改造过的检测模型进行针对人脸检测的训练,获得训练好的深度神经网络模型;
步骤3:使用步骤2训练好的深度神经网络模型对待检测图片进行计算,得到模型输出结果。
进一步的,步骤1具体包括:
SSD512输入检测器的特征分别有VGG的conv4_3层特征,以及后续添加的fc7层、conv6_2层、conv7_2层、conv8_2层、conv9_2层和conv10_2层特征;特征融合从conv8_2层特征开始,上采样与conv7_2层特征融合;融合后的特征再上采样,与conv6_2层特征融合;以此类推,一直融合到conv4_3,分别依次融合得到fuse7_2、fuse6_2、fusefc7和fuse4_3;用融合得到的fuse4_3、fusefc7、fuse6_2和fuse7_2特征替代原来的conv4_3层、fc7层、conv6_2层、conv7_2层特征,并连同原来的conv8_2层与未参与融合的conv9_2层和conv10_2层特征一起送入与SSD模型相同的检测器,由多个卷积层组成的检测器在这7个特征的基础上进行检测框的回归和分类,,获得改造过的检测模型。
进一步的,步骤1对conv4_3层、fc7层、conv6_2层、conv7_2层和conv8_2层特征进行特征融合,将两层特征融合步骤如下:
1.3、特征fd+s通过一层3×3卷积进行通道数降维,以去掉多余噪声,将fd+s的cd+cs个通道,降低成统一的256维;再通过一层ReLU激活层,得到最终融合结束的特征ffuse;
1.4、ffuse作为深层特征与更浅层特征相融合,一直融合到conv4_3,分别依次融合得到fuse7_2、fuse6_2、fusefc7和fuse4_3。
进一步的,步骤2具体包括:
2.1、采用SSD给出的VGG预训练模型的参数对检测模型参数进行初始化;
2.2、数据集采用公开的Wider Face人脸检测数据集;从Wider Face中随机抽取若干张为一批图片,并对这一批图片进行数据增强和预处理;
2.3、将进行数据增强和预处理之后的若干张图片输入深度神经网络模型,经过深度神经网络模型的计算,分别得到该批次各图片的输出结果;深度神经网络模型模型结构包括SSD使用的用来提特征的卷积神经网络、特征融合部分、检测器部分;其中,特征融合部分如步骤1所述;提特征的卷积神经网络和检测器部分延续SSD的模型设置;
2.4、将深度神经网络模型的输出结果与数据集给出的标签相比较,并通过损失函数计算损失;
2.5、使用随机梯度下降方法更新深度神经网络模型参数;
2.6、判断深度神经网络模型是否达到收敛条件,如果不是,回到第2.2步;如果是,结束训练,获得训练好的深度神经网络模型。
进一步的,步骤2.1具体包括:数据增强做法如下:有0.5的概率进行亮度微调,微调范围是±32之间的均匀分布;有0.5的概率进行对比度微调,微调范围是0.5倍到1.5倍之间的均匀分布;有0.5的概率进行色调的微调,微调范围是±18之间的均匀分布;有0.5的概率进行饱和度的微调,微调范围是0.5倍到1.5倍之间的均匀分布;数据增强后进行图像的预处理,步骤如下:将通过之前增强处理过的图片的大小通过双线性插值的方法调整到固定的512×512的大小;将固定为512×512大小的图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB平均值。
进一步的,步骤3具体包括:
3.1、将待检测图片进行预处理,与步骤2中的2.2中预处理方法一样,将待检测图片通过双线性插值的方法调整到固定的512×512的大小;将调整过大小的待检测图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB通道的平均值;
3.2、将进行预处理之后的待检测图片输入步骤2训练好的深度神经网络模型,经过模型的计算,分别得到该图片的输出结果;
3.3、对步骤2训练好的深度神经网络模型的输出结果做统计的非极大值抑制,得到模型输出结果。
进一步的,步骤3.3具体包括:
(a)深度神经网络模型输出的检测框具有统一的格式,每个检测框由五个数字x1,y1,x2,y2和s表示;其中,x1,y1和x2,y2分别代表框的左上和右下的坐标值;s代表深度神经网络模型对该检测框的预测置信度,称为该检测框的得分,取值在0和1之间,得分越高说明网络模型对该检测框越有把握;所有深度神经网络模型输出的检测框,记做找出中得分最大的检测框bmax,bmax的坐标和得分分别为((xm1,ym1),(xm2,ym2))和sm;
初始化xsum1=smxm1,xsum2=smxm2,ysum1=smym1,ysum2=smym2,ssum=sm五个变量用来存储累加值;其中,xsum1,xsum2,ysum1,ysum2分别存储的是框坐标的加权累加值,ssum存储的是得分累加值;
设bi的左上右下坐标为((x1,y1),(x2,y2)),则bi和bmax同时覆盖到的面积I定义如下:
I=(min(xm2,x2)-max(xm1,x1))(min(ym2,y2)-max(ym1,y1))
bi和bmax总体覆盖到的面积U定义如下:
U=(x2-x1)(y2-y1)+(xm2-xm1)(ym2-ym1)-I
bi与bmax的重叠程度IOU定义如下:
IOU反映了两个检测框的重叠比例大小,并且0≤IOU≤1;令θ=0.3,当IOU>θ时,更新
xsum1←xsum1+sixi1;
xsum2←xsum2+sixi2;
ysum1←ysum1+siyi1;
ysum2←ysum2+siyi2;
ssum←ssum+sm;
(c)将中所有的检测框和bmax一起以检测框的得分为权重求坐标值的加权平均值,该加权平均之后的坐标值((xmean1,ymean1),(xmean2,ymean2))记做bmean,bmean坐标值的计算方法如下:
本发明为保证较快的检测速度,整体上以SSD快速目标检测方法的网络结构为基础进行修改,并对修改后的网络进行针对人脸检测的训练;
为降低SSD本身存在的漏检和误检,本发明在SSD网络结构的基础上加入特征的融合方法:由于检测方法中要求特征既要包含局部特征用于定位,又要包含语义特征用于分类。一般而言,CNN深层特征的语义特征丰富而缺乏局部定位信息,浅层特征的局部特征丰富但受限于网络深度缺乏语义特征。为了减少分类错误造成的漏检和误检,本发明在提特征的卷积神经网络的不同深度的特征之间做特征融合,以求获得更为整体而全面的特征,既利于分类器的判断以降低漏检和误检,又有利于回归器的定位以提高定位精准度;
为进一步提高检测框定位的精准度,本发明在最终结果的合并过程中使用统计的非极大值抑制方法:在产生的最终结果的筛选中用基于统计的非极大值抑制算法,代替传统的非极大值抑制,以消除传统非极大值抑制算法带来的偶然性,提高检测框定位的精准度。
本发明中所述统计的非极大值抑制方法与普通的非极大值抑制方法的区别在第3.3步。普通的非极大值抑制将IOU>θ的检测框直接去掉,本发明取了这些检测框和得分最大的检测框的坐标的加权平均值。这样,用统计的信息替代单个框的信息,消除了得分最大的框偏离物体的偶然性。
相对于现有技术,本发明具有以下有益效果:本发明通过使用人脸检测的数据集训练SSD达到快速目标检测的目的;本发明通过融合卷积神经网络不同深度下的特征,增强特征的表达能力,在此基础上的分类和定位效果得到提升,一定程度上克服当前快速检测算法存在的漏检率和误检率都较高,并且检测框定位的精准度较差的不足;本发明通过在最终结果的合并过程中使用统计的非极大值抑制方法,消除偶然性,进一步提高检测框定位的精准度。
附图说明
下面结合附图对本发明进一步说明。
图1是本发明的神经网络模型示意图,包括深度卷积网络特征模型、深度特征融合分支;
图2是神经网络训练和检测流程图;
图3是统计的非极大值抑制算法流程图;
图4(a)和图4(b)均是在FDDB数据集上的部分人脸检测结果图;
图5(a)和图5(b)分别是SSD-512与本发明在智慧城市数据集以10帧为抽帧间隔的人脸检测部分结果对比。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,是本发明一种卷积神经网络特征融合的多尺度快速人脸检测方法,包括如下步骤:
步骤1,以SSD(Single Shot Multibox Detector)目标检测算法为基本框架,详见文献:W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.-Y.Fu,and A.C.Berg.SSD:Single shot multibox detector.ECCV,pages 21–37,2016.改造SSD中的特征提取方法,加入特征融合方法:
如图2所示,SSD是一种多尺度目标检测方法,检测器以CNN不同深度下的特征也即不同尺度的特征为基础分别做分类和检测框回归。SSD512输入检测器的特征分别有VGG的conv4_3层特征,以及后续添加的fc7层、conv6_2层、conv7_2层、conv8_2层、conv9_2层和conv10_2层特征。详细模型结构见文献,本发明不再赘述。本发明发现conv9_2层和conv10_2层特征太过宏观,对于浅层小物体分类并无帮助。所以本发明的特征融合从conv8_2层特征开始,上采样与conv7_2层特征融合;融合后的特征再上采样,与conv6_2层特征融合;以此类推,一直融合到conv4_3。用融合得到的fuse4_3、fusefc7、fuse6_2和fuse7_2特征替代原来的conv4_3层、fc7层、conv6_2层、conv7_2层特征,并连同原来的conv8_2层与未参与融合的conv9_2层和conv10_2层特征一起送入检测器。
本发明对conv4_3层、fc7层、conv6_2层、conv7_2层和conv8_2层特征进行特征融合。将两层特征融合步骤如下:
1.1、首先通过最近邻插值的上采样方法将待融合深层特征fd的长宽放大得到此时,的宽高与待融合浅层特征fs的宽高相同。例如,当输入为3×512×512位的RGB彩色图像时,SSD的特征提取网络的conv8_2层特征大小为256×4×4;将conv8_2层特征采取最近邻插值法上采样,得到大小为256×8×8的特征,与conv7_2层长宽相同;
1.2、将与fs通过拼接的方式在通道维度上连接成较长的特征,得到特征fd+s。例如将conv8_2层上采样之后的大小为256×8×8的特征与大小同样为256×8×8的conv7_2层特征在通道维度拼接,产生大小为512×8×8的特征;
1.3、特征fd+s通过一层3×3卷积进行通道数降维,以去掉多余噪声,将fd+s的cd+cs个通道,降低成统一的256维。再通过一层ReLU激活层,得到最终融合结束的特征ffuse。例如conv8_2上采样与conv7_2拼接之后的特征送入一层卷积层和一层ReLU激活层的组合进行降维,将512×8×8的特征降维成256×8×8的特征;
1.4、ffuse作为深层特征与更浅层特征相融合。例如conv8_2上采样与conv7_2拼接降维之后的特征继续上采样与conv6_2层特征进行融合,以此类推,一直融合到conv4_3;
最终送入检测器的特征分别是conv8_2层和未进行融合的conv9_2层、conv10_2层特征,和融合得到的fuse4_2、fuse4_3、fusefc7、fuse6_2、fuse7_2特征。这里使用与SSD模型相同的检测器,由多个卷积层组成的检测器将在这7个特征的基础上进行检测框的回归和分类。
步骤2,对步骤1中改造过的检测模型进行针对人脸检测的训练:
如图1所示,训练过程中用到Wider Face数据集,步骤如下:
2.1、采用SSD给出的VGG预训练模型的参数对检测模型参数进行初始化;
2.2、数据集采用公开的Wider Face人脸检测数据集,详见文献:Shuo Yang,PingLuo,Chen Change Loy,Xiaoou Tang:WIDER FACE:A Face Detection Benchmark.CVPR2016:5525-5533.数据集规模太大,没有办法一次将所有图片送入模型训练,所以采取分批训练的方法。本发明从Wider Face中随机抽取16张为一批图片(具体一批使用多少张图片可根据机器性能调整),并对这一批16张图片进行数据增强和预处理,数据增强主要做法如下:有0.5的概率进行亮度微调,微调范围是±32之间的均匀分布;有0.5的概率进行对比度微调,微调范围是0.5倍到1.5倍之间的均匀分布;有0.5的概率进行色调的微调,微调范围是±18之间的均匀分布;有0.5的概率进行饱和度的微调,微调范围是0.5倍到1.5倍之间的均匀分布。然后进行图像的预处理,主要步骤如下:将通过之前增强处理过的图片的大小通过双线性插值的方法调整到固定的512×512的大小;将固定为512×512大小的图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB平均值,以保证送入模型的所有数据均值为零;
2.3、将进行数据增强和预处理之后的16张图片输入深度神经网络模型,经过深度神经网络模型的计算,分别得到该批次各图片的输出结果;深度神经网络模型模型结构包括SSD使用的用来提特征的卷积神经网络、特征融合部分、检测器部分。其中,特征融合部分如步骤一所述;提特征的卷积神经网络和检测器部分延续SSD的模型设置。
2.4、将深度神经网络模型的输出结果与数据集给出的标签相比较,并通过损失函数计算损失;
2.5、使用随机梯度下降(SGD)方法更新深度神经网络模型参数;
2.6、判断深度神经网络模型是否达到收敛条件,如果不是,回到第2.2步;如果是,结束训练,获得训练好的深度神经网络模型。
步骤3,使用步骤2训练好的深度神经网络模型对图片进行计算,得到模型输出结果:
如图1所示,检测过程中使用的模型是步骤2中训练结束后的深度神经网络模型,步骤如下:
3.1、将待检测图片进行预处理,与步骤2中的2.2中预处理方法一样,将待检测图片通过双线性插值的方法调整到固定的512×512的大小;将调整过大小的待检测图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB通道的平均值;
3.2、将进行预处理之后的待检测图片输入步骤2训练好的深度神经网络模型,经过模型的计算,分别得到该图片的输出结果。
3.3、如图3所示,对步骤2训练好的深度神经网络模型的输出结果做统计的非极大值抑制,步骤如下:
(a)深度神经网络模型输出的检测框具有统一的格式,每个检测框由五个数字x1,y1,x2,y2和s表示。其中,x1,y1和x2,y2分别代表框的左上和右下的坐标值;s代表深度神经网络模型对该检测框的预测置信度,称为该检测框的得分,取值在0和1之间,得分越高说明网络模型对该检测框越有把握。所有深度神经网络模型输出的检测框,记做找出中得分最大的检测框bmax,bmax的坐标和得分分别为((xm1,ym1),(xm2,ym2))和sm;
初始化xsum1=smxm1,xsum2=smxm2,ysum1=smym1,ysum2=smym2,ssum=sm五个变量用来存储累加值;其中,xsum1,xsum2,ysum1,ysum2分别存储的是框坐标的加权累加值,ssum存储的是得分累加值。
设bi的左上右下坐标为((x1,y1),(x2,y2)),则bi和bmax同时覆盖到的面积I定义如下:
I=(min(xm2,x2)-max(xm1,x1))(min(ym2,y2)-max(ym1,y1))
bi和bmax总体覆盖到的面积U定义如下:
U=(x2-x1)(y2-y1)+(xm2-xm1)(ym2-ym1)-I
bi与bmax的重叠程度IOU定义如下:
IOU反映了两个检测框的重叠比例大小,并且0≤IOU≤1。令θ=0.3,当IOU>θ时,更新
xsum1←xsum1+sixi1;
xsum2←xsum2+sixi2;
ysum1←ysum1+siyi1;
ysum2←ysum2+siyi2;
ssum←ssum+sm.
(c)将中所有的检测框和bmax一起以检测框的得分为权重求坐标值的加权平均值,该加权平均之后的坐标值((xmean1,ymean1),(xmean2,ymean2))记做bmean,bmean坐标值的计算方法如下:
实验结果表明,通过本技术方案,可以对复杂背景下的人脸作出精确的捕获和定位,达到大于15帧每秒的检测速度。如图4中列出使用FDDB人脸检测数据集作为测试集的部分检测结果。FDDB人脸检测数据集包含2845张图片,5171张人脸,在保证误检不超过10%,即误检数500的时候,正确率达到95.10%,相比SSD-512有1.02%的提升。如图5(a)和图5(b)所示,本发明相比于SSD512误检有明显减少。本发明不但具有较高的检出率和较低的误检率,同时增强了检测框的精准度,实现了人脸的快速检测。
Claims (6)
1.一种卷积神经网络特征融合的多尺度快速人脸检测方法,其特征在于,包括以下步骤:
步骤1:以SSD快速目标检测方法的模型结构为基础,改造SSD中的特征提取方法,加入特征融合方法,获得改造过的检测模型;
步骤2:对步骤1中改造过的检测模型进行针对人脸检测的训练,获得训练好的深度神经网络模型;
步骤3:使用步骤2训练好的深度神经网络模型对待检测图片进行计算,得到模型输出结果;
步骤1具体包括:
SSD512输入检测器的特征分别有VGG的conv4_3层特征,以及后续添加的fc7层、conv6_2层、conv7_2层、conv8_2层、conv9_2层和conv10_2层特征;特征融合从conv8_2层特征开始,上采样与conv7_2层特征融合;融合后的特征再上采样,与conv6_2层特征融合;以此类推,一直融合到conv4_3,分别依次融合得到fuse7_2、fuse6_2、fusefc7和fuse4_3;用融合得到的fuse4_3、fusefc7、fuse6_2和fuse7_2特征替代原来的conv4_3层、fc7层、conv6_2层、conv7_2层特征,并连同原来的conv8_2层与未参与融合的conv9_2层和conv10_2层特征一起送入与SSD模型相同的检测器,由多个卷积层组成的检测器分别在这7个特征的基础上进行检测框的回归和分类,获得改造过的检测模型。
2.根据权利要求1所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法,其特征在于,步骤1对conv4_3层、fc7层、conv6_2层、conv7_2层和conv8_2层特征进行特征融合,将两层特征融合步骤如下:
1.3、特征fd+s通过一层3×3卷积进行通道数降维,以去掉多余噪声,将fd+s的cd+cs个通道,降低成统一的256维;再通过一层ReLU激活层,得到最终融合结束的特征ffuse;
1.4、ffuse作为深层特征与更浅层特征相融合,一直融合到conv4_3,分别依次融合得到fuse7_2、fuse6_2、fusefc7和fuse4_3。
3.根据权利要求1所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法,其特征在于,步骤2具体包括:
2.1、采用SSD给出的VGG预训练模型的参数对检测模型参数进行初始化;
2.2、数据集采用公开的Wider Face人脸检测数据集;从Wider Face中随机抽取若干张为一批图片,并对这一批图片进行数据增强和预处理;
2.3、将进行数据增强和预处理之后的若干张图片输入深度神经网络模型,经过深度神经网络模型的计算,分别得到输入深度神经网络模型的若干张图片的输出结果;深度神经网络模型的模型结构包括SSD使用的用来提特征的卷积神经网络、特征融合部分、检测器部分;其中,特征融合部分如步骤1所述;提特征的卷积神经网络和检测器部分延续SSD的模型设置;
2.4、将深度神经网络模型的输出结果与数据集给出的标签相比较,并通过损失函数计算损失;
2.5、使用随机梯度下降方法更新深度神经网络模型参数;
2.6、判断深度神经网络模型是否达到收敛条件,如果不是,回到第2.2步;如果是,结束训练,获得训练好的深度神经网络模型。
4.根据权利要求3所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法,其特征在于,步骤2.1具体包括:数据增强做法如下:有0.5的概率进行亮度微调,微调范围是±32之间的均匀分布;有0.5的概率进行对比度微调,微调范围是0.5倍到1.5倍之间的均匀分布;有0.5的概率进行色调的微调,微调范围是±18之间的均匀分布;有0.5的概率进行饱和度的微调,微调范围是0.5倍到1.5倍之间的均匀分布;数据增强后进行图像的预处理,步骤如下:将通过之前增强处理过的图片的大小通过双线性插值的方法调整到固定的512×512的大小;将固定为512×512大小的图片的RGB三个通道分别减去事先计算好的WiderFace数据集所有像素的RGB平均值。
5.根据权利要求3所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法,其特征在于,步骤3具体包括:
3.1、将待检测图片进行预处理,与步骤2中的2.2中预处理方法一样,将待检测图片通过双线性插值的方法调整到固定的512×512的大小;将调整过大小的待检测图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB通道的平均值;
3.2、将进行预处理之后的待检测图片输入步骤2训练好的深度神经网络模型,经过模型的计算,分别得到该图片的输出结果;
3.3、对步骤2训练好的深度神经网络模型的输出结果做统计的非极大值抑制,得到模型输出结果。
6.根据权利要求5所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法,其特征在于,步骤3.3具体包括:
(a)深度神经网络模型输出的检测框具有统一的格式,每个检测框由五个数字x1,y1,x2,y2和s表示;其中,x1,y1和x2,y2分别代表框的左上和右下的坐标值;s代表深度神经网络模型对该检测框的预测置信度,称为该检测框的得分,取值在0和1之间,得分越高说明网络模型对该检测框越有把握;所有深度神经网络模型输出的检测框,记做找出中得分最大的检测框bmax,bmax的坐标和得分分别为((xm1,ym1),(xm2,ym2))和sm;
初始化xsum1=smxm1,xsum2=smxm2,ysum1=sm ym1,ysum2=smym2,ssum=sm五个变量用来存储累加值;其中,xsum1,xsum2,ysum1,ysum2分别存储的是框坐标的加权累加值,ssum存储的是得分累加值;
设bi的左上右下坐标为((x1,y1),(x2,y2)),则bi和bmax同时覆盖到的面积I定义如下:
I=(min(xm2,x2)-max(xm1,x1))(min(ym2,y2)-max(ym1,y1))
bi和bmax总体覆盖到的面积U定义如下:
U=(x2-x1)(y2-y1)+(xm2-xm1)(ym2-ym1)-I
bi与bmax的重叠程度IOU定义如下:
IOU反映了两个检测框的重叠比例大小,并且0≤IOU≤1;令θ=0.3,当IOU>θ时,更新
xsum1←xsum1+sixi1;
xsum2←xsum2+sixi2;
ysum1←ysum1+siyi1;
ysum2←ysum2+siyi2;
ssum←ssum+sm;
(c)将中所有的检测框和bmax一起以检测框的得分为权重求坐标值的加权平均值,该加权平均之后的坐标值((xmean1,ymean1),(xmean2,ymean2))记做bmean,bmean坐标值的计算方法如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810276795.7A CN108520219B (zh) | 2018-03-30 | 2018-03-30 | 一种卷积神经网络特征融合的多尺度快速人脸检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810276795.7A CN108520219B (zh) | 2018-03-30 | 2018-03-30 | 一种卷积神经网络特征融合的多尺度快速人脸检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108520219A CN108520219A (zh) | 2018-09-11 |
CN108520219B true CN108520219B (zh) | 2020-05-12 |
Family
ID=63430934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810276795.7A Active CN108520219B (zh) | 2018-03-30 | 2018-03-30 | 一种卷积神经网络特征融合的多尺度快速人脸检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108520219B (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101958A (zh) * | 2018-11-01 | 2018-12-28 | 钟祥博谦信息科技有限公司 | 基于深度学习的人脸检测*** |
CN111435418B (zh) * | 2018-12-26 | 2024-01-02 | 深圳市优必选科技有限公司 | 机器人个性化物体识别方法、装置、存储介质及机器人 |
CN109919013A (zh) * | 2019-01-28 | 2019-06-21 | 浙江英索人工智能科技有限公司 | 视频图像中基于深度学习的人脸检测方法及装置 |
CN109886312B (zh) * | 2019-01-28 | 2023-06-06 | 同济大学 | 一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法 |
CN109858547A (zh) * | 2019-01-29 | 2019-06-07 | 东南大学 | 一种基于bssd的目标检测方法与装置 |
CN109886159B (zh) * | 2019-01-30 | 2021-03-26 | 浙江工商大学 | 一种非限定条件下的人脸检测方法 |
CN109977793B (zh) | 2019-03-04 | 2022-03-04 | 东南大学 | 基于变尺度多特征融合卷积网络的路侧图像行人分割方法 |
CN109977790A (zh) * | 2019-03-04 | 2019-07-05 | 浙江工业大学 | 一种基于迁移学习的视频烟雾检测与识别方法 |
CN110008853B (zh) * | 2019-03-15 | 2023-05-30 | 华南理工大学 | 行人检测网络及模型训练方法、检测方法、介质、设备 |
CN109993089B (zh) * | 2019-03-22 | 2020-11-24 | 浙江工商大学 | 一种基于深度学习的视频目标去除及背景恢复方法 |
CN111738036B (zh) * | 2019-03-25 | 2023-09-29 | 北京四维图新科技股份有限公司 | 图像处理方法、装置、设备及存储介质 |
CN110008876A (zh) * | 2019-03-26 | 2019-07-12 | 电子科技大学 | 一种基于数据增强与特征融合的人脸验证方法 |
CN111753581A (zh) * | 2019-03-27 | 2020-10-09 | 虹软科技股份有限公司 | 目标检测方法和装置 |
CN110245675B (zh) * | 2019-04-03 | 2023-02-10 | 复旦大学 | 一种基于毫米波图像人体上下文信息的危险物体检测方法 |
CN110033505A (zh) * | 2019-04-16 | 2019-07-19 | 西安电子科技大学 | 一种基于深度学习的人体动作捕捉与虚拟动画生成方法 |
CN110189307B (zh) * | 2019-05-14 | 2021-11-23 | 慧影医疗科技(北京)有限公司 | 一种基于多模型融合的肺结节检测方法及*** |
CN110210538B (zh) * | 2019-05-22 | 2021-10-19 | 雷恩友力数据科技南京有限公司 | 一种家居图像多目标识别方法及装置 |
TWI738009B (zh) | 2019-06-20 | 2021-09-01 | 和碩聯合科技股份有限公司 | 物件偵測系統及物件偵測方法 |
CN110427821A (zh) * | 2019-06-27 | 2019-11-08 | 高新兴科技集团股份有限公司 | 一种基于轻量级卷积神经网络的人脸检测方法及*** |
CN110472634B (zh) * | 2019-07-03 | 2023-03-14 | 中国民航大学 | 基于多尺度深度特征差值融合网络的变化检测方法 |
CN110473185B (zh) * | 2019-08-07 | 2022-03-15 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN110427912A (zh) * | 2019-08-12 | 2019-11-08 | 深圳市捷顺科技实业股份有限公司 | 一种基于深度学习的人脸检测方法及其相关装置 |
CN110495962A (zh) * | 2019-08-26 | 2019-11-26 | 赫比(上海)家用电器产品有限公司 | 监测牙刷位置的方法及其牙刷和设备 |
CN110765886B (zh) * | 2019-09-29 | 2022-05-03 | 深圳大学 | 一种基于卷积神经网络的道路目标检测方法及装置 |
CN111191508A (zh) * | 2019-11-28 | 2020-05-22 | 浙江省北大信息技术高等研究院 | 人脸识别方法及装置 |
CN110910415A (zh) * | 2019-11-28 | 2020-03-24 | 重庆中星微人工智能芯片技术有限公司 | 抛物检测方法、装置、服务器和计算机可读介质 |
CN111144248B (zh) * | 2019-12-16 | 2024-02-27 | 上海交通大学 | 基于st-fhcd网络模型的人数统计方法、***及介质 |
CN111232200B (zh) * | 2020-02-10 | 2021-07-16 | 北京建筑大学 | 基于微型飞行器的目标检测方法 |
CN111401290A (zh) * | 2020-03-24 | 2020-07-10 | 杭州博雅鸿图视频技术有限公司 | 一种人脸检测方法及***、计算机可读存储介质 |
CN112464701B (zh) * | 2020-08-26 | 2023-06-30 | 北京交通大学 | 基于轻量化特征融合ssd的人员是否佩戴口罩检测方法 |
CN112926506B (zh) * | 2021-03-24 | 2022-08-12 | 重庆邮电大学 | 一种基于卷积神经网络的非受控人脸检测方法及*** |
CN115346114A (zh) * | 2022-07-21 | 2022-11-15 | 中铁二院工程集团有限责任公司 | 一种铁路隧道航空电磁法不良地质体识别定位方法及设备 |
CN115200784B (zh) * | 2022-09-16 | 2022-12-02 | 福建(泉州)哈工大工程技术研究院 | 基于改进ssd网络模型的漏粉检测方法、装置及可读介质 |
CN116851856B (zh) * | 2023-03-27 | 2024-05-10 | 浙江万能弹簧机械有限公司 | 纯水线切割加工工艺及其*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL2010887C2 (en) * | 2013-05-29 | 2014-12-02 | Univ Delft Tech | Memristor. |
CN106709568B (zh) * | 2016-12-16 | 2019-03-22 | 北京工业大学 | 基于深层卷积网络的rgb-d图像的物体检测和语义分割方法 |
CN107705324A (zh) * | 2017-10-20 | 2018-02-16 | 中山大学 | 一种基于机器学习的视频目标检测方法 |
-
2018
- 2018-03-30 CN CN201810276795.7A patent/CN108520219B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108520219A (zh) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520219B (zh) | 一种卷积神经网络特征融合的多尺度快速人脸检测方法 | |
CN110909690B (zh) | 一种基于区域生成的遮挡人脸图像检测方法 | |
CN109657595B (zh) | 基于堆叠沙漏网络的关键特征区域匹配人脸识别方法 | |
US20200410212A1 (en) | Fast side-face interference resistant face detection method | |
CN112818862B (zh) | 基于多源线索与混合注意力的人脸篡改检测方法与*** | |
CN110543846B (zh) | 一种基于生成对抗网络的多姿态人脸图像正面化方法 | |
CN111310718A (zh) | 一种遮挡人脸图像高准确率检测对比方法 | |
CN112950661A (zh) | 一种基于注意力生成对抗网络人脸卡通画生成方法 | |
CN1975759A (zh) | 一种基于结构主元分析的人脸识别方法 | |
US20100111375A1 (en) | Method for Determining Atributes of Faces in Images | |
CN111368758A (zh) | 一种人脸模糊度检测方法、装置、计算机设备及存储介质 | |
CN112150692A (zh) | 一种基于人工智能的门禁控制方法及*** | |
CN114550268A (zh) | 一种利用时空特征的深度伪造视频检测方法 | |
CN112434647A (zh) | 一种人脸活体检测方法 | |
CN116110100A (zh) | 一种人脸识别方法、装置、计算机设备及存储介质 | |
CN116453232A (zh) | 人脸活体检测方法、人脸活体检测模型的训练方法和装置 | |
Cai et al. | Perception preserving decolorization | |
CN111882525A (zh) | 一种基于lbp水印特征和细粒度识别的图像翻拍检测方法 | |
CN116229528A (zh) | 一种活体掌静脉检测方法、装置、设备及存储介质 | |
Booysens et al. | Ear biometrics using deep learning: A survey | |
CN111967331B (zh) | 基于融合特征和字典学习的人脸表示攻击检测方法及*** | |
CN112200008A (zh) | 一种社区监控场景下人脸属性识别方法 | |
KR20180092453A (ko) | Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법 | |
CN111191549A (zh) | 一种两级人脸防伪检测方法 | |
CN113014914B (zh) | 一种基于神经网络的单人换脸短视频的识别方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |