CN111382638B

CN111382638B - 一种图像检测方法、装置、设备和存储介质

Info

Publication number: CN111382638B
Application number: CN201811643680.3A
Authority: CN
Inventors: 项伟; 黄秋实
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-08-29
Anticipated expiration: 2038-12-29
Also published as: CN111382638A

Abstract

本发明公开了一种图像检测方法、装置、设备和存储介质。其中，该方法包括：获取待检测图像，所述待检测图像包括至少一个人脸候选区域；在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到所述人脸候选区域的深度卷积特征；根据所述人脸候选区域的深度卷积特征的分类得分，确定所述待检测图像中的人脸区域。本发明实施例提供的技术方案，无需对各个人脸候选区域再次进行多层筛选，解决了现有技术中耗费时间长，且检测速率难以满足实时性限制的问题，在保证人脸检测的高召回率的基础上，提高了人脸检测效率。

Description

一种图像检测方法、装置、设备和存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种图像检测方法、装置、设备和存储介质。

背景技术

随着图像处理的快速发展，目标物体的检测越来越广泛的应用到日常生活中的各个领域，特别是针对图像中的人脸检测，在监控安防、生物信息识别以及人机交互领域中均有涉及；由于人脸检测应用往往部署在网络中的边缘计算节点，如现场可编程门阵列(Field-Programmable Gate Array，FPGA)芯片、智能摄像头或者手机移动端等，此时在实际部署过程中存在计算能力有限及存储空间小等限制，使得人脸检测结果存在一定误差，且检测效率较低。

目前，为了准确得到人脸在待检测图像中的检测结果，通常采用多任务级联的卷积神经网络(Multi-Task Convolutional Neural Networks，MTCNN)模型来检测图像中的人脸特征点位置，该MTCNN模型中包括三层网络结构：区域生成网络(Proposal Network，P-Net)、提炼网络(Refine Network，R-Net)和生产网络(Output Network，O-Net)；其中，P-Net模型以原始图像作为输入，通过卷积操作提取出对应大小的特征图，并根据特征图中各个点对应区域为人脸区域的概率确定出候选人脸区域；R-Net模型以候选人脸区域作为输入，过滤掉候选人脸框中的负样本；O-Net模型以过滤后的候选人脸区域作为输入，进一步提取出更为精确的人脸区域作为最终的人脸检测结果。

而为了保证检测人脸的高召回率，其中，召回率是指在待检测图像中最终检测出的人脸区域的数量与待检测图像中实际存在的人脸区域的数量的比例，此时高召回率也就是保证检测出的人脸区域与图像中实际存在的人脸区域能够一致，则需要P-Net模型中初步检测出的候选人脸区域尽可能多的包含原始图像中全部的人脸区域，此时对于每个候选人脸区域都需要输入到R-Net模型和O-Net模型中进行多层过滤，会耗费大量的处理时间，进而导致MTCNN模型的运行速度难以满足实时性限制。

发明内容

本发明实施例提供了一种图像检测方法、装置、设备和存储介质，在保证人脸检测的高召回率的基础上，提高人脸检测的实时性。

第一方面，本发明实施例提供了一种图像检测方法，该方法包括：

获取待检测图像，所述待检测图像包括至少一个人脸候选区域；

在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到所述人脸候选区域的深度卷积特征；

根据所述人脸候选区域的深度卷积特征的分类得分，确定所述待检测图像中的人脸区域。

进一步的，所述人脸候选区域通过执行下述操作确定：

采用图像金字塔算法获取所述待检测图像在不同尺寸下的目标检测图像；

将不同尺寸下的目标检测图像输入预先构建的区域生成网络模型中，分别得到对应的初始人脸候选区域；

根据所述待检测图像的原始尺寸与所述目标检测图像的目标尺寸，对所述初始人脸候选区域进行尺寸恢复，得到对应的人脸候选区域。

进一步的，在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到所述人脸候选区域的深度卷积特征，包括：

将所述待检测图像输入预先构建的卷积神经网络模型中，得到所述待检测图像的深度卷积特征图；

根据人脸候选区域在所述待检测图像中的位置，确定在所述深度卷积特征图中对应的特征区域；

对所述特征区域进行池化处理，得到所述人脸候选区域的深度卷积特征。

进一步的，根据所述人脸候选区域的深度卷积特征的分类得分，确定所述待检测图像中的人脸区域，包括：

合并各所述人脸候选区域的深度卷积特征，得到对应的融合卷积特征；

将所述融合卷积特征输入到预先构建的分类全连接网络模型中，得到各所述人脸候选区域的人脸得分和背景得分；

所述人脸候选区域的人脸得分高于背景得分，则该人脸候选区域为所述待检测图像中的人脸区域。

进一步的，在得到对应的融合卷积特征之后，还包括：

将所述融合卷积特征输入到预先构建的回归全连接网络模型中，得到各所述人脸候选区域中人脸的位置参数。

进一步的，所述图像检测方法，还包括：

根据各所述人脸候选区域中人脸的位置参数，确定所述人脸区域在所述待检测图像中的位置参数，并在所述待检测图像中标记出所述人脸区域。

第二方面，本发明实施例提供了一种图像检测装置，该装置包括：

图像获取模块，用于获取待检测图像，所述待检测图像包括至少一个人脸候选区域；

卷积特征确定模块，用于在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到所述人脸候选区域的深度卷积特征；

人脸区域确定模块，用于根据所述人脸候选区域的深度卷积特征的分类得分，确定所述待检测图像中的人脸区域。

进一步的，所述人脸候选区域通过执行下述操作确定：

进一步的，所述卷积特征确定模块，包括：

特征图确定单元，用于将所述待检测图像输入预先构建的卷积神经网络模型中，得到所述待检测图像的深度卷积特征图；

特征区域确定单元，用于根据人脸候选区域在所述待检测图像中的位置，确定在所述深度卷积特征图中对应的特征区域；

卷积特征确定单元，用于对所述特征区域进行池化处理，得到所述人脸候选区域的深度卷积特征。

进一步的，所述人脸区域确定模块，包括：

特征合并单元，用于合并各所述人脸候选区域的深度卷积特征，得到对应的融合卷积特征；

得分确定单元，用于将所述融合卷积特征输入到预先构建的分类全连接网络模型中，得到各所述人脸候选区域的人脸得分和背景得分；

人脸区域确定单元，用于所述人脸候选区域的人脸得分高于背景得分，则该人脸候选区域为所述待检测图像中的人脸区域。

进一步的，所述图像检测装置，还包括：

位置参数确定模块，用于在得到对应的融合卷积特征之后，将所述融合卷积特征输入到预先构建的回归全连接网络模型中，得到各所述人脸候选区域中人脸的位置参数。

进一步的，所述图像检测装置，还包括：

人脸区域标记模块，用于根据各所述人脸候选区域中人脸的位置参数，确定所述人脸区域在所述待检测图像中的位置参数，并在所述待检测图像中标记出所述人脸区域。

第三方面，本发明实施例提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的图像检测方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的图像检测方法。

本发明实施例提供的一种图像检测方法、装置、设备和存储介质，通过在待检测图像的深度卷积特征图，分析各个人脸候选区域之间的特征关联性，对获取的各人脸候选区域进行池化处理，，从而得到各人脸候选区域的深度卷积特征，提高了后续特征分类的准确性，同时直接根据各人脸候选区域的深度卷积特征的分类得分，确定对应的人脸区域，无需对各个人脸候选区域再次进行多层筛选，解决了现有技术中耗费时间长，且检测速率难以满足实时性限制的问题，在保证人脸检测的高召回率的基础上，提高了人脸检测效率，增强了人脸检测的实时性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1A为本发明实施例一提供的一种图像检测方法的流程图；

图1B为本发明实施例一提供的方法中在待检测图像中确定人脸候选区域的原理示意图；

图2为本发明实施例二提供的一种图像检测方法的原理示意图；

图3A为本发明实施例三提供的一种图像检测方法的流程图；

图3B为本发明实施例三提供的图像检测方法的原理示意图；

图4为本发明实施例四提供的一种图像检测装置的结构示意图；

图5为本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

目前，现有的目标物体检测网络模型中会自带一种可学习的目标物体候选区域提取网络，该候选区域提取网络能够提取出待检测图像中可能存在目标物体的位置区域，而该候选区域提取网络与目标物体检测网络模型中用于生成待检测图像的深度卷积特征图的卷积网络共享了网络参数，导致该候选区域提取网络的学习能力不足，无法通过该候选区域提取网络准确得到待检测图像中存在的全部目标物体区域，也就是无法准确学习到高召回率的人脸候选区域集；而现有的能够保证获取的人脸候选区域中尽可能多的包含待检测图像中的全部人脸区域的模型中，由于人脸候选区域的数量较多，此时会对每个人脸候选区域再次进行多层筛选，导致耗费大量处理时间，使得人脸检测速率极低，无法满足人脸检测实时性的要求；因此，本发明实施例主要针对每个人脸候选区域需要进行多层筛选的问题，得到各人脸候选区域中较为全面的深度卷积特征，从而根据各人脸候选区域的深度卷积特征的分类得分，确定待检测图像中的人脸区域，无需对各个人脸候选区域再次进行多层筛选，在保证人脸检测的高召回率的基础上，提高了人脸检测效率，增强了人脸检测的实时性。

实施例一

图1A为本发明实施例一提供的一种图像检测方法的流程图，本实施例可应用于任一种存在通过人脸检测来实现监控安防、生物信息验证及人机交互等功能需求的设备上。本发明实施例的技术方案适用于如何同时保证人脸检测的高召回率和人脸检测效率的情况中。本实施例提供的一种图像检测方法可以由本发明实施例提供的图像检测装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，该设备可以是需要对待检测图像中的人脸位置进行检测的智能终端。

具体的，参考图1A，该方法可以包括如下步骤：

S110，获取待检测图像。

具体的，待检测图像是指需要通过进行一系列的图像处理来检测是否存在某一目标物体的原始图像。本实施例中主要用于在待检测图像中识别出具体的人脸区域。人脸候选区域是指在待检测图像中选取出的可能存在人脸部位的各个图像区域，根据设定的选取参数或者输入图像尺寸的不同，能够在待检测图像中选取出多个不同尺寸的人脸候选区域。

可选的，为了在待检测图像中确定对应的人脸区域，首先需要获取本次检测的待检测图像，并通过设定相应的选取参数或者对该待检测图像在选取时的尺寸进行设置，从而采用相应的选取方式在待检测图像中选取出多个可能存在人脸相应部位的图像位置区域，作为人脸候选区域。

可选的，为了保证待检测图像中人脸检测的高召回率，此时要求获取的人脸候选区域尽可能多的包含待检测图像中实际存在的全部人脸区域，如图1B所示，本实施例中人脸候选区域可以通过执行下述操作确定：

S111，采用图像金字塔算法获取待检测图像在不同尺寸下的目标检测图像。

其中，图像金字塔算法是指一种以多分辨率的形式来实现图像的多尺度表达，一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图像的图像集合，可以通过对原始图像进行梯次向下采样获得，直到达到某个终止条件才停止采样；金字塔的底部是待检测图像的高分辨率表示，而顶部是低分辨率的表示。具体的，图像金字塔算法可以包括高斯金字塔和拉普拉斯金字塔两种。

本实施例中在获取到待检测图像后，采用预先设定的图像金字塔算法对该待检测图像进行尺寸变换，具体的按照一定的比例不断地缩小待检测图像的尺寸，也就是对待检测图像进行向下采样，直到不断缩小的图像尺寸低于一定的尺寸阈值，此时可以得到待检测图像在不同尺寸下的目标检测图像，该目标检测图像与待检测图像中的画面相同，仅是显示尺寸不同。

S112，将不同尺寸下的目标检测图像输入预先构建的区域生成网络模型中，分别得到对应的初始人脸候选区域。

其中，区域生成网络模型中包括预设尺寸的选取框。具体的，区域生成网络模型是一种深度卷积神经网络模型，通过卷积操作对输入图像进行预设尺寸的滑窗操作，从而得到卷积特征图中对应位置处的卷积特征值，同时该卷积特征图中每一个卷积特征值均包含有表示该位置人脸区域在输入图像中对应的位置区域为人脸区域的概率值，以及该位置区域中人脸区域在输入图像中的位置信息，如该人脸区域在位置区域的中的左上角横纵坐标、区域宽度和高度。

具体的，本实施例中在得到不同尺寸下的目标检测图像后，为了尽可能多的得到待检测图像中的人脸候选区域，可以将各个不同尺寸下的目标检测图像对应输入到预先构建的区域生成网络模型中，通过卷积操作对输入图像进行预设尺寸的滑窗操作，得到该位置区域在目标检测图像对应的卷积特征图中对应位置处的卷积特征值，此时根据该卷积特征值中包含的该位置区域为人脸区域的概率值判断该位置区域是否可能存在人脸部位，若该概率值超出预先设定的概率阈值，则说明该位置区域可能存在人脸相应部位，将该位置区域作为本次选取的初始人脸候选区域，此时该初始人脸候选区域是通过预设尺寸的选取框从各个不同尺寸下的目标检测图像中获取的，因此该初始人脸候选区域的尺寸与区域生成网络模型中包含的选取框的预设尺寸相同，后续还需要对该初始人脸候选区域的尺寸进行恢复，得到在待检测图像中的人脸候选区域。

需要说明的是，本实施例中预先构建的区域生成网络模型可以是多任务级联的卷积神经网络MTCNN模型中的第一层网络结构，也就是MTCNN模型中的P-Net模型，以目标检测图像作为输入，通过12*12大小的选取框对目标检测图像进行对应的卷积操作，得到大小为5*m*n的卷积特征图，其中m*n为卷积特征图的尺寸，该卷积特征图上的每个特征点均对应包含5个特征值，分别为该特征点在目标检测图像中对应的位置区域为人脸区域的概率值，以及该位置区域的各个位置信息。如通过P-Net模型得到的卷积特征图中一个坐标为(x,y)的特征点(0≤x<m,0≤y<n)，在目标检测图像中对应的位置区域为左上角坐标为(2x,2y)、大小12*12的正方形框。本实施例中通过对该区域生成网络模型中的训练参数和神经元结构进行训练，能够得到尽可能多的包含目标检测图像中的全部人脸区域的初始人脸候选区域，也就是得到尽可能多的包含有待检测图像中的全部人脸区域的人脸候选区域，以便后续能够准确检测出待检测图像实际存在的人脸区域。

此外，本实施例中对于区域生成网络模型进行训练时，可以选用尺寸大小为12*12的训练样本，并设定对应的样本标签(p,x,y,h,w)，其中p为12*12大小的训练样本为人脸区域的概率，(x,y)为该训练样本的左上角横纵坐标，(h,w)为该训练样本的高度和宽度；本实施例中将原始输入图像输入到区域生成网络模型中进行训练，从而提取出相应的候选区域特征并最终输出5*1*1的深度卷积特征。其中，候选区域特征中包含的5个值分别为所输入的图像区域所包含人脸框的概率以及各个位置信息；并根据对应的样本标签(p,x,y,h,w)，通过预先定义的损失函数确定本次训练中存在的训练损失，并将该训练损失在设定的区域生成网络模型中进行反向传播，从而更新该模型中的网络参数，完成区域生成网络模型的训练；后续直接根据训练好的区域生成网络模型对不同尺寸下的目标检测图像进行处理，得到对应的初始人脸候选区域。

S113，根据待检测图像的原始尺寸与目标检测图像的目标尺寸，对初始人脸候选区域进行尺寸恢复，得到对应的人脸候选区域。

具体的，在得到不同尺寸下的目标检测图像中对应的初始人脸候选区域时，由于该初始人脸候选区域是通过区域生成网络模型中预设尺寸的选取框从各个不同尺寸下的目标检测图像中获取的，因此该初始人脸候选区域的尺寸与区域生成网络模型中包含的选取框的预设尺寸相同，此时为了得到待检测图像中的人脸候选区域，则需要将各个初始人脸候选区域进行尺寸恢复。具体的，根据待检测图像的原始尺寸与选取出的各个初始人脸候选区域所在的目标检测图像的目标尺寸，确定对应的尺寸变换比例，从而根据该尺寸变换比例对目标检测图像中的初始人脸候选区域进行尺寸恢复，得到待检测图像中多个对应尺寸下的人脸候选区域。

S120，在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到人脸候选区域的深度卷积特征。

其中，深度卷积特征图是指通过预先设定的深度卷积神经网络中的卷积核进行卷积操作，从而将图片特征进行统一映射得到的特征图。可选的，池化操作可以包括平均值池化和最大值池化两种，表示在深度卷积特征图中对待检测图像中某一区域存在权值特征共享的特征区域求取平均值或最大值，以得到该区域对应的特征值，实现深度卷积特征图中的特征压缩。

可选的，本实施例在获取待检测图像中存在的各个人脸候选区域的同时，还可以通过专门针对待检测图像的特征提取而预先构建的深度卷积神经网络，对获取的待检测图像进行对应的卷积操作，得到待检测图像中存在的各个人脸候选区域所共享权值特征的深度卷积特征图，此时在得到的深度卷积特征图中选取出对各个人脸候选区域的特征存在共享的特征范围，并对该特征范围进行对应的池化处理，从而得到各个人脸候选区域的深度卷积特征，以便后续根据该深度卷积特征实现各个人脸候选区域的准确分类。

S130，根据人脸候选区域的深度卷积特征的分类得分，确定待检测图像中的人脸区域。

具体的，在提取出各个人脸候选区域的深度卷积特征后，可以预先训练一种分类模型，该分类模型用于根据训练后的分类参数和设定的神经元结构对输入图像中各个图像区域的深度卷积特征进行处理，以对数据图像中的各个图像区域进行准确分类，从而明确判断出各图像区域中是否存在人脸区域。

本实施例中将得到的各个人脸候选区域的深度卷积特征统一输入到预先训练的分类模型中，以根据该分类模型中的分类参数和设定的神经元结构对各个人脸候选区域的深度卷积特征进行统一的融合分析，得到各个人脸候选区域在不同设定分类区域中对应的分类得分，从而对不同设定分类区域中对应的分类得分进行比对，准确判断各个人脸候选区域所属的设定分类区域，该设定分类区域中包括人脸区域，从而在全部人脸候选区域中准确选取出所属为人脸区域的部分人脸候选区域，作为待检测图像中的人脸区域。

本实施例提供的技术方案，通过提取待检测图像的深度卷积特征图，分析各个人脸候选区域之间的特征关联性，对获取的各人脸候选区域进行池化处理，从而得到各人脸候选区域的深度卷积特征，提高了后续特征分类的准确性，同时直接根据各人脸候选区域的深度卷积特征的分类得分，确定对应的人脸区域，无需对各个人脸候选区域再次进行多层筛选，解决了现有技术中耗费时间长，且检测速率难以满足实时性限制的问题，在保证人脸检测的高召回率的基础上，提高了人脸检测效率。

实施例二

图2为本发明实施例二提供的一种图像检测方法的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的，如图2所示，本实施例中主要针对各个人脸候选区域在待检测图像的深度卷积特征图中进行池化处理的具体过程进行详细的解释说明。

可选的，本实施例中的图像检测方法可以包括如下步骤：

S210，获取待检测图像，该待检测图像包括至少一个人脸候选区域。

S220，将待检测图像输入预先构建的卷积神经网络模型中，得到待检测图像的深度卷积特征图。

其中，本实施例中的卷积神经网络模型是与在待检测图像中提取人脸候选区域时所应用的区域生成网络模型中得到卷积特征图的功能类似，而模型参数不同的一种机器学习模型。区域生成网络模型在训练过程中主要针对训练得到尽可能多的包含实际存在的人脸区域的人脸候选区域，而卷积神经网络模型主要针对训练得到待检测图像中包含的更加全面的具备较强代表功能的深度卷积特征图，两者的训练目标不同，所训练的模型参数和神经元结构也不同。具体的，本实施例在将待检测图像采用图像金字塔算法处理，并输入区域生成网络模型中，以获取对应的人脸候选区域的同时，还可以将该待检测图像输入到预先构建的卷积神经网络模型中，通过预先训练的模型参数和神经元结构对待检测图像进行对应的卷积处理，也就是通过设定的卷积核在待检测图像中选取出对应地位置区域执行卷积操作，得到各个位置区域所对应的卷积特征值，进而由各个位置区域的卷积特征值确定该待检测图像的深度卷积特征图。

S230，根据人脸候选区域在待检测图像中的位置，确定在深度卷积特征图中对应的特征区域。

具体的，在得到待检测图像的人脸候选区域和深度卷积特征图时，可以根据区域生成网络模型中输出的各个人脸候选区域的位置信息，确定该人脸候选区域在待检测图像中所处的具***置，由于待检测图像中的各个点在深度卷积特征图中的特征映射具备位移不变性质，此时可以根据各个人脸候选区域在待检测图像中所处的具***置范围，在深度卷积特征图中选取出对应范围的特征区域，作为人脸候选区域在深度卷积特征图对应的特征区域，后续对该特征区域进行相应池化处理，从而通过分析各个人脸候选区域之间的关联信息，增强对应的人脸检测能力。

S240，对该特征区域进行池化处理，得到人脸候选区域的深度卷积特征。

具体的，在确定各个人脸候选区域在深度卷积特征图中对应的特征区域时，，此时为了简化网络模型的计算复杂度，可以对每个人脸候选区域在深度卷积特征图中对应的特征区域进行池化处理，也就是将映射得到的深度卷积特征图中每个人脸候选区域对应的特征进行压缩处理，包括最大值池化处理或者平均值池化处理两种，从而得到各个人脸候选区域的深度卷积特征。此外，由于人脸候选区域的尺寸不同，因此在得到各个人脸候选区域在深度卷积特征图中的特征区域时，该特征区域的尺寸也不相同，为了能够统一对各个特征区域进行池化处理，还需要将不同尺寸的特征区域进行划分，得到预先设定大小的特征子区域，后续对该特征区域内包含的各个特征子区域进行池化处理，从而得到人脸候选区域的深度卷积特征。

S250，根据人脸候选区域的深度卷积特征的分类得分，确定待检测图像中的人脸区域。

本实施例提供的技术方案，通过采用预先构建的卷积神经网络模型获取待检测图像的深度卷积特征图，并在该深度卷积特征图中确定出预先通过区域生成网络模型得到的人脸候选区域对应的特征区域，从而对各个人脸候选区域进行池化处理，在保证人脸检测的高召回率的基础上，提高了人脸检测效率，同时采用不同的模型分别进行人脸候选区域和深度卷积特征图的获取，无需共享训练中的模型参数，提高了模型的学习能力，得到更为准确的人脸候选区域和深度卷积特征图，提高了人脸检测的召回率。

实施例三

图3A为本发明实施例三提供的一种图像检测方法的流程图，图3B为本发明实施例三提供的图像检测方法的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的，如图3B所示，本实施例中在确定待检测图像中的人脸区域后，还可以该人脸区域进行标记，本实施例中主要针对根据人脸候选区域的深度卷积特征的分类得分来确定人脸区域以及该人脸区域位置标记的具体过程进行详细介绍。

可选的，如图3A所示，本实施例中的图像检测方法可以包括如下步骤：

S310，获取待检测图像，该待检测图像包括至少一个人脸候选区域。

S320，在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到人脸候选区域的深度卷积特征。

S330，合并各人脸候选区域的深度卷积特征，得到对应的融合卷积特征。

具体的，本实施例在对各个人脸候选区域的特征进行池化处理，得到各个人脸候选区域的深度卷积特征时，关联不同人脸候选区域之间的特征此时将得到的各个人脸候选区域的深度卷积特征进行合并，也就是将各个人脸候选区域的深度卷积特征统一拉平为一种矢量特征，从而得到对应的融合卷积特征，后续对该融合卷积特征进行分析，提高人脸检测的准确性。

S340，将融合卷积特征输入到预先构建的分类全连接网络模型中，得到各人脸候选区域的人脸得分和背景得分。

其中，分类全连接网络模型一种能够对待检测图像中各个人脸候选区域合并的融合卷积特征进行融合分析，从而对各个人脸候选区域进行准确分类的网络模型，可以分别输出各个人脸候选区域为人脸区域和背景区域对应的得分(f,g)，其中f为人脸得分，g为背景得分。具体的，在得到的各个人脸候选区域对应的融合卷积特征后，将该融合卷积特征输入到预先构建的分类全连接网络模型中，该分类全连接网络模型通过对融合卷积特征中包含的各个人脸候选区域的深度卷积特征进行融合分析，从而得到各个人脸候选区域的人脸得分和背景得分，后续对该人脸得分和背景得分进行判断，确定各个人脸候选区域的所属类别，也就是判断各个人脸候选区域中是否存在实际人脸部位。

S350，判断人脸候选区域的人脸得分是否高于背景得分，若是，执行S370；若否，执行S360。

具体的，在得到各个人脸候选区域的人脸得分和背景得分时，可以通过判断人脸得分和背景得分的高低来确定各人脸候选区域所属的分类类别，从而得到待检测图像中实际存在的人脸区域。

S360，该人脸候选区域为待检测图像中的背景区域。

具体的，本实施例中将人脸得分低于或等于背景得分的人脸候选区域作为待检测图像中的背景区域。

S370，该人脸候选区域为待检测图像中的人脸区域。

具体的，本实施例中将人脸得分高于背景得分的人脸候选区域作为待检测图像中实际存在的人脸区域。

S380，将融合卷积特征输入到预先构建的回归全连接网络模型中，得到各人脸候选区域中人脸的位置参数。

可选的，为了后续确定待检测图像中人脸区域的具***置，可以预先确定各个人脸候选区域中人脸所处的具***置，此时本实施例中还可以在得到对应的融合卷积特征后，将该融合卷积特征输入到预先构建的回归全连接网络模型中，该回归全连接网络模型通过对融合卷积特征中包含的各个人脸候选区域的深度卷积特征进行融合分析，可以得到各个人脸候选区域中人脸位置对应的左上角坐标和高和宽，也就是得到各个人脸候选区域中人脸的位置参数。

需要说明的是，由于后续需要在待检测图像中标记出对应的人脸区域，此时还需要确定人脸区域的位置，因此本实施例中在执行S330得到对应的融合卷积特征后，同时执行S380和S340，将该融合卷积特征分别输入到分类全连接网络模型和回归全连接网络模型中，得到各人脸候选区域的两种分类得分和人脸的位置参数，从而确定人脸区域的位置参数。

此外，本实施例中可以将预先构建的神经卷积网络模型、分类全连接网络模型以及回归全连接网络模型统一组成一个高精度的候选区域分类模型，对从区域生成网络模型中得到的每个人脸候选区域进行分类。可选的，本实施例中在对候选区域分类模型中的模型参数进行训练时，可以将区域生成网络模型中输出的人脸候选区域作为对应人脸候选区域集合，将图像尺寸预处理后的原始输入图像与人脸候选区域集合一起输入到该候选区域分类模型中，原始输入图像经过神经卷积网络模型得到对应的深度卷积特征图，并在深度卷积特征图对人脸候选区域集合中的各个人脸候选区域进行池化处理，并将池化后的特征分别通过分类全连接网络模型以及回归全连接网络模型，最终得到每个人脸候选区域的分类得分(f,g)和位置参数(x,y,h,w)。假如人脸候选区域与输入图像中所包含实际人脸区域的重叠比(Intersection Over Union，IOU)大于预先设定的上界阈值，则认为人脸候选区域为正样本；假如重叠比小于预先设定的下界阈值，则认为人脸候选区域为负样本。对于所有正样本，在训练过程中，会通过预先规定的损失函数计算本次分类得分的损失值，如交叉熵损失函数；同样的，对于所有正样本，在训练过程中，也会对所预测的人脸位置参数计算损失值，此时的损失函数可选用光滑一范数损失函数；最终，在损失值计算完毕后，通过反向传播来更新候选区域分类模型中的模型参数；而对于所有负样本，在训练时只计算本次分类得分的损失值，并反向传播完成模型参数更新；此时通过输入一定大小的训练集，并经过上述过程迭代至一定次数后，最终可以得到一个训练完成的候选区域分类模型。

S390，根据各人脸候选区域中人脸的位置参数，确定人脸区域在所述待检测图像中的位置参数，并在待检测图像中标记出人脸区域。

具体的，在确定各个人脸候选区域的人脸得分和背景得分时，能够确定出该人脸候选区域所属的分类类别，若该人脸候选区域为对应的人脸区域，则该人脸候选区域中人脸的位置参数则为相应人脸区域的位置参数，此时根据各人脸区域的位置参数，可以在待检测图像中标记出该人脸区域。

示例性的，本实施例中以一个由红绿蓝三色彩通道组成的、尺寸大小为336*336的输入图像为例，首先将3*336*336的输入图像分别输入到预先构建的区域生成网络模型和深度卷积网络模型中，分别得到100*4的人脸候选区域和32*42*42的深度卷积特征图，其中100*4的人脸候选区域为100个包括左上角和右下角的位置坐标的人脸候选区域；32*42*42的深度卷积特征图为32个尺寸大小为42*42的深度卷积特征图。将在深度卷积特征图中各个人脸候选区域对应的特征区域进行池化处理，每一个人脸候选区域提取出32*5*5的深度卷积特征，并将100个人脸候选区域的深度卷积特征进行合并，得到100*32*5*5的融合卷积特征，将该融合卷积特征分别输入到预先构建的分类全连接网络模型和回归全连接网络模型中，从而得到每个人脸候选区域对应的包含背景得分和人脸得分的2*1*1的分类矢量，以及包含左上角和右下角的位置坐标的4*1*1的位置矢量，此时根据每个人脸候选区域的分类矢量中的背景得分和人脸得分，判断各人脸候选区域具体所属为人脸区域还是背景区域，从而得到3*336*336的输入图像中的人脸区域，并确定人脸区域的位置参数，也就是人脸区域对应的位置矢量，在输入图像的对应位置进行标记。

本实施例提供的技术方案，通过分别采用分类全连接网络模型和回归全连接网络模型对各个人脸候选区域的深度卷积特征进行统一的融合分析，得到对应的分类得分和位置参数，实现深度卷积特征的全面性分析，提高人脸检测的准确性和人脸检测效率。

实施例四

图4为本发明实施例四提供的一种图像检测装置的结构示意图，具体的，如图4所示，该装置可以包括：

图像获取模块410，用于获取待检测图像，该待检测图像包括至少一个人脸候选区域；

卷积特征确定模块420，用于在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到人脸候选区域的深度卷积特征；

人脸区域确定模块430，用于根据人脸候选区域的深度卷积特征的分类得分，确定待检测图像中的人脸区域。

进一步的，上述人脸候选区域可以通过执行下述操作确定：

采用图像金字塔算法获取待检测图像在不同尺寸下的目标检测图像；

将不同尺寸下的目标检测图像输入预先构建的区域生成网络模型中，分别得到对应的初始人脸候选区域

根据待检测图像的原始尺寸与目标检测图像的目标尺寸，对初始人脸候选区域进行尺寸恢复，得到对应的人脸候选区域。

进一步的，上述卷积特征确定模块，可以包括：

特征图确定单元，用于将待检测图像输入预先构建的卷积神经网络模型中，得到待检测图像的深度卷积特征图；

特征区域确定单元，用于根据人脸候选区域在待检测图像中的位置，确定在深度卷积特征图中对应的特征区域；

卷积特征确定单元，用于对特征区域进行池化处理，得到人脸候选区域的深度卷积特征。

进一步的，上述人脸区域确定模块，可以包括：

特征合并单元，用于合并各人脸候选区域的深度卷积特征，得到对应的融合卷积特征；

得分确定单元，用于将融合卷积特征输入到预先构建的分类全连接网络模型中，得到各人脸候选区域的人脸得分和背景得分；

人脸区域确定单元，用于人脸候选区域的人脸得分高于背景得分，则该人脸候选区域为待检测图像中的人脸区域。

进一步的，上述图像检测装置，还可以包括：

位置参数确定模块，用于在得到对应的融合卷积特征之后，将融合卷积特征输入到预先构建的回归全连接网络模型中，得到各人脸候选区域中人脸的位置参数。

进一步的，上述图像检测装置，还可以包括：

人脸区域标记模块，用于根据各人脸候选区域中人脸的位置参数，确定人脸区域在待检测图像中的位置参数，并在待检测图像中标记出人脸区域。

本实施例提供的图像检测装置可适用于上述任意实施例提供的图像检测方法，具备相应的功能和有益效果。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图，如图5所示，该设备包括处理器50、存储装置51和通信装置52；设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50、存储装置51和通信装置52可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储装置51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的图像检测方法对应的程序指令/模块。处理器50通过运行存储在存储装置51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述图像检测方法。

存储装置51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置52可用于实现设备间的网络连接或者移动数据连接。

本实施例提供的一种设备可用于执行上述任意实施例提供的图像检测方法，具备相应的功能和有益效果。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的图像检测方法。该方法具体可以包括：

获取待检测图像，该待检测图像包括至少一个人脸候选区域；

在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到人脸候选区域的深度卷积特征；

根据人脸候选区域的深度卷积特征的分类得分，确定待检测图像中的人脸区域。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的图像检测方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述图像检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像检测方法，其特征在于，包括：

根据所述人脸候选区域的深度卷积特征的分类得分，确定所述待检测图像中的人脸区域；

根据所述人脸候选区域的深度卷积特征的分类得分，确定所述待检测图像中的人脸区域，包括：

2.根据权利要求1所述的方法，其特征在于，所述人脸候选区域通过执行下述操作确定：

3.根据权利要求1所述的方法，其特征在于，在待检测图像的深度卷积特征图中对人脸候选区域进行池化处理，得到所述人脸候选区域的深度卷积特征，包括：

4.根据权利要求1所述的方法，其特征在于，在得到对应的融合卷积特征之后，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.一种图像检测装置，其特征在于，包括：

人脸区域确定模块，用于根据所述人脸候选区域的深度卷积特征的分类得分，确定所述待检测图像中的人脸区域；

所述人脸区域确定模块还包括：

7.根据权利要求6所述的装置，其特征在于，所述人脸候选区域通过执行下述操作确定：

8.一种图像检测设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的图像检测方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的图像检测方法。