CN108229432A

CN108229432A - 人脸标定方法及装置

Info

Publication number: CN108229432A
Application number: CN201810096476.8A
Authority: CN
Inventors: 查俊莉; 汤锦鹏
Original assignee: Guangzhou Dongjing Computer Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-06-29

Abstract

本申请实施例提供了一种人脸标定方法及装置，其中方法包括：根据第一神经网络模型对人脸图片进行处理，以确定一批人脸区域；根据第二神经网络模型对一批人脸区域进行处理，以从一批人脸区域中过滤掉非人脸区域；根据第三神经网络模型对过滤了非人脸的一批人脸区域进行处理，以确定T时刻的唯一人脸区域；根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。由于经过了多个神经网络模型通过多层卷积操作，高效精准的提取人脸特征点，大大提高人脸标定的鲁棒性，进一步地，当引入反馈机制时，提高了标定效率和稳定性。

Description

人脸标定方法及装置

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种人脸标定方法及装置。

背景技术

神经网络在图片识别领域取得的巨大突破，推动了人脸标定作为图像应用的飞速进展，为人脸标定在应对姿态、光照和表情变化时提供了更高的稳定性，由此也促进人脸标定广泛应用于娱乐、安全等越来越多的领域。

人脸标定主要分为人脸检测和人脸表征两个阶段。人脸检测阶段就是给定任意一张图片，判断图片内是否存在一个或者多个人脸，并且返回每个人脸的位置区域。人脸检测的研究在早期主要致力于模板匹配、子空间方法等，后来主要集中在基于数据驱动的方法，比如统计模型方法，神经网络学习方法等。最有代表性的是Viola和Jones(简称VJ人脸检测)通过Haar-Like特征和AdaBoost训练出的级联分类器，获得了实时性非常好的人脸检测器。但针对于现实的复杂环境，比如：人脸尺度多变、姿态多样、光照条件恶劣、分辨率低等，经典的VJ人脸检测器更多时候表现并不好。近来，越来越多基于CNN卷积神经网络的人脸识别算法涌现出来，表现了更强的鲁棒性和更高的检测精确度。比如：FacenessNet，DCNN等。

人脸表征主要是对齐人脸并提取人脸的特征，定位出眉毛、眼镜、嘴巴、鼻子和脸部轮廓等关键区域的位置，又称人脸关键点检测。目前常见的人脸对齐有5点对齐，68点对齐。人脸对齐可以应用于五官定位，表情识别、人脸漫画生成，增强现实，换脸等等。人脸关键点检测的方法分为三种：1.基于ASM(Active Shape Model)和AAM(Active AppearnceModel)的传统方法；2.基于级联形状回归的方法；3.基于深度学习的方法。传统方法模型虽然简单，易于理解和应用，但是对于模型有较强的依赖性，鲁棒性较差。因此，目前大部门使用基于深度学习的方法进行人脸关键点的检测。

发明内容

有鉴于此，本申请实施例所解决的技术问题之一在于提供一种人脸标定方法及装置，用以克服或者缓解现有技术中上述缺陷。

本申请实施例提供了一种人脸区域标定方法，其包括：

根据第一神经网络模型对人脸图片进行处理，以确定一批人脸区域；

根据第二神经网络模型对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域；

根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域；

根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

可选地，在本申请的任一实施例中，还包括：

获取采集的原始人脸图片，并将所述原始人脸图片进行缩放处理得到不同尺寸的图像金字塔；

将不同尺寸的图像金字塔作为所述第一神经网络模型的输入，以使得第一神经网络模型对人脸图片进行处理，以确定一批人脸区域。

可选地，在本申请的任一实施例中，获取采集的原始人脸图片包括：通过电子终端的开发接口获取由电子终端设图像采集单元采集的原始人脸图片。

可选地，在本申请的任一实施例中，根据第一神经网络模型对人脸图片进行处理，以确定一批人脸区域，包括：根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域。

可选地，在本申请的任一实施例中，根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域，包括：根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，确定一批人脸区域。

可选地，在本申请的任一实施例中，根据第二神经网络模型对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域，包括：根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域。

可选地，在本申请的任一实施例中，根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域，包括：根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，从所述一批人脸区域中过滤掉非人脸区域。

可选地，在本申请的任一实施例中，根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域，包括：根据第三神经网络模型中配置的不同卷积层和卷积核先后对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域和人脸关键点位置。

可选地，在本申请的任一实施例中，根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域，包括：根据人脸跟踪模型中的位置滤波器和尺度滤波器对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

可选地，在本申请的任一实施例中，还包括：根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功。

可选地，在本申请的任一实施例中，根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功包括：若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠等于设定的重叠阈值，则判定所述唯一性人脸区域跟踪成功；或者，若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠小于或者大于设定的重叠阈值，则判定所述唯一性人脸区域跟踪失败。

可选地，在本申请的任一实施例中，若判定所述唯一性人脸区域跟踪成功，则将T+1时刻的唯一人脸区域作为所述第三神经网络模型的输入，以对过滤了非人脸的所述一批人脸区域进行处理，以确定T+2时刻的唯一人脸区域。

可选地，在本申请的任一实施例中，判定所述唯一性人脸区域跟踪失败，则跳转到根据第一神经网络模型对人脸图片进行处理的步骤，以再次确定一批人脸区域。

本申请实施例还提供一种人脸区域标定装置，其包括：

第一程序单元，用于根据第一神经网络模型对人脸图片进行处理，以确定一批人脸区域；

第二程序单元，用于根据第二神经网络模型对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域；

第三程序单元，用于根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域；

第四程序单元，用于根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

可选地，在本申请的任一实施例中，还包括：

转换单元，用于获取采集的原始人脸图片，并将所述原始人脸图片进行缩放处理得到不同尺寸的图像金字塔；

输入单元，用于将不同尺寸的图像金字塔作为所述第一神经网络模型的输入，以使得第一神经网络模型对人脸图片进行处理，以确定一批人脸区域。

可选地，在本申请的任一实施例中，所述第一程序单元进一步用于根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域。

可选地，在本申请的任一实施例中，所述第一程序单元进一步用于根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，确定一批人脸区域。

可选地，在本申请的任一实施例中，所述第二程序单元进一步用于根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域。

可选地，在本申请的任一实施例中，所述第二程序单元进一步用于根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，从所述一批人脸区域中过滤掉非人脸区域。

可选地，在本申请的任一实施例中，所述第三程序单元进一步用于根据第三神经网络模型中配置的不同卷积层和卷积核先后对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域和人脸关键点位置。

可选地，在本申请的任一实施例中，所述第四程序单元进一步用于根据人脸跟踪模型中的位置滤波器和尺度滤波器对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

可选地，在本申请的任一实施例中，还包括：反馈单元，用于根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功。

可选地，在本申请的任一实施例中，所述反馈单元进一步用于若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠等于设定的重叠阈值，则判定所述唯一性人脸区域跟踪成功；或者，若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠小于或者大于设定的重叠阈值，则判定所述唯一性人脸区域跟踪失败。

可选地，在本申请的任一实施例中，若判定所述唯一性人脸区域跟踪成功，则所述反馈单元进一步用于将T+1时刻的唯一人脸区域作为所述第三神经网络模型的输入，以对过滤了非人脸的所述一批人脸区域进行处理，以确定T+2时刻的唯一人脸区域。

本申请实施例还提供一种电子设备，其包括上述任一项实施例中所述的人脸区域标定装置。

本申请实施例中，根据第一神经网络模型对人脸图片进行处理，以确定一批人脸区域；根据第二神经网络模型对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域；根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域；根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域，由于经过了多个神经网络模型通过多层卷积操作，高效精准的提取人脸特征点，大大提高人脸标定的鲁棒性。另外，不会受到复杂环境的影响。同时针对当前最先进的神经网络算法，预测效率也提升了300％，而且准确度不会受到影响。进一步地，当引入反馈机制时，提高了标定效率和稳定性。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为本申请实施例一中人脸区域标定方法的流程示意图；

图2为本申请实施例二中人脸区域标定装置的结构示意图；

图3为本申请实施例三中人脸区域标定装置的结构示意图；

图4为本申请实施例四中人脸区域标定装置的结构示意图。

具体实施方式

实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1为本申请实施例一中人脸区域标定方法的流程示意图；如图1所示，其包括：

S101、根据第一神经网络模型对人脸图片进行处理，以确定一批人脸区域；

可选地，在实施例中，步骤S101中还包括：获取采集的原始人脸图片，并将所述原始人脸图片进行缩放处理得到不同尺寸的图像金字塔；将不同尺寸的图像金字塔作为所述第一神经网络模型的输入，以使得第一神经网络模型对人脸图片进行处理，以确定一批人脸区域。

以使用移动终端中的图像采集设备如摄像头为例，可以通过移动终端提供的相应开发接口，获取使用摄像头的权限，提取摄像头拍摄的每一帧图片。摄像头拍摄的图像一般是RGB三通道的图像，可以使用常规的转换算法或转换工具，将其转换为单通道的灰度图像。通过将摄像头拍摄的图像转换成灰度图像，大量减少了图像的无关信息。然后，再将灰度图像进行resize(缩放)处理，生成多个不同分辨率的子图像帧，也即，将灰度图像resize为不同尺寸大小和分辨率的图像金字塔，例如，将480*480的图像，以0.3为倍数依次resize为144*144、43*43、13*13的图像，获得包含四种尺寸和分辨率的图像金字塔。图像金字塔是图像多尺度表达的一种，是一种以多分辨率来解释图像的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合。其通过向下采样获得，层级越高，则图像越小，分辨率越低。

但不限于此，在实际使用中，也可以采用其它方式对图像进行处理，生成多个不同分辨率的子图像帧；还可以不进行灰度图像帧转换，直接进行图像处理如缩放处理，生成多个不同分辨率的子图像帧。

具体地，在实施例中，步骤S101中获取采集的原始人脸图片具体可以包括：通过电子终端的开发接口获取由电子终端设图像采集单元采集的原始人脸图片。

具体地，在实施例中，步骤S101中根据第一神经网络模型对人脸图片进行处理以确定一批人脸区域时，具体可以根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域。在具体实施时，具体可以根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，确定一批人脸区域。

示例性地，第一神经网络模型为四层卷积神经网络模型。其中，第一层为输入层，获取的图像金字塔，可以作为输入层的输入；第二层为3*3的卷积层，卷积核为5*5*10，进行图像特征的提取；第三层为3*3的卷积层，卷积核为3*3*16，基于第二层的提取结果再次进行图像特征的提取；最后一层为输出回归层，1*1*12的卷积，最后输出一批人脸区域，其可反映出如下结果：1.是否为人脸；2.人脸区域框位置。需要说明的是，在实际应用中，不限于上述四层卷积神经网络模型结构，本领域技术人员还可以根据实际需求采用更多层的模型结构。

如果第一神经网络模型为四层卷积神经网络模型，则每一层网络会输出一个候选人脸区域框，通过计算多个后续人脸区域框之间的重叠度，并从中筛选出重叠度小于设定重叠度阈值的候选人脸区域框，即为一批人脸区域。

具体可以通过如下公式计算任一两个候选人脸区域框的重叠度：

R_A表示A候选人脸区域框的面积，R_B表示B候选人脸区域框的面积，那么这两个候选任亮区域框的重叠度IOU(Intersection-Over-Union)的计算式如下：

过滤出所有IOU<Threshhold(重叠度阈值)的区域框(即所述一批人脸区域)作为步骤S102中第一神经网络模型的输入。

需要说明的是，也可以在步骤S101之前执行：获取采集的原始人脸图片并将所述原始人脸图片进行缩放处理得到不同尺寸的图像金字塔；将不同尺寸的图像金字塔作为所述第一神经网络模型的输入，以使得第一神经网络模型对人脸图片进行处理，以确定一批人脸区域。

S102、根据第二神经网络模型对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域；

具体地，本实施例中，S102中根据第二神经网络模型对所述一批人脸区域进行处理以从所述一批人脸区域中过滤掉非人脸区域时，具体可以根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域。

进一步地，S102中根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域，包括：根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，从所述一批人脸区域中过滤掉非人脸区域。

示例性地，第二神经网络模型为五层卷积神经网络模型。其中，第一层为输入层，将生成的一批人脸区域作为输入层的输入；第二层为3*3的卷积层，卷积核为11*11*28，进行人脸区域图像的特征提取；第三层为3*3的卷积层，卷积核为4*4*48，基于第二层的提取结果再次进行人脸区域的特征提取；第四层为2*2的卷积层，卷积核为3*3*64，基于第三层的提取结果再次进行人脸区域的特征提取进行特征提取；第五层为128的全连通层，最后输出过滤了非人脸的所述一批人脸区域，其可反映出如下结果：1.是否为人脸；2.人脸区域框位置。需要说明的是，在实际应用中，不限于上述五层卷积神经网络模型结构，本领域技术人员还可以根据实际需求采用其它层数级的轻量化模型结构。

进一步地，在第二神经网络模型的每一层网络的输出一个候选人脸区域框，通过计算多个后续人脸区域框之间的重叠度，并从中筛选出重叠度小于设定重叠度阈值的候选人脸区域框，以从所述一批人脸区域中过滤掉非人脸区域。

S103、根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域；

本实施例中，步骤S103中根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理以确定T时刻的唯一人脸区域时，具体可以根据第三神经网络模型中配置的不同卷积层和卷积核先后对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域和人脸关键点位置。

示例性地，第三神经网络模型为六层卷积神经网络模型：第一层是输入层，将所述步骤S102中第二神经网络模型的输出调整大小为48*48图片作为输入。第二层是3*3的卷积层，卷积核为23*23*32，基于48*48图片进行特征的提取。第三层为3*3的卷积层，卷积核为10*10*64，基于第二层的输出进行特征的提取。第四层为2*2的卷积层，卷积核为4*4*64，基于第三层的输出进行特征提取。第五层为2*2的卷积层，卷积核为3*3*128，基于第四层的输出进行特征提取。第六层为全连通层，最后输出T时刻的唯一人脸区域，其可反映出如下结果：1.是否为人脸；2.人脸区域框位置；3.人脸关键点位置，从而得到得到最后人脸框的标定区域和关键点位置。

S104、根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域；

本实施例中，步骤S104中根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪以确定T+1时刻的唯一人脸区域时，具体根据人脸跟踪模型中的位置滤波器和尺度滤波器对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

本实施例中，两个滤波器分别为位置滤波器和尺度滤波器，前者进行当前图像帧中人脸的定位，后者进行当前图像帧中人脸尺度的估计。两个滤波器是相对独立的，从而可以选择不同的特征种类和特征计算方式来训练和测试。在进行目标跟踪时，在新的一帧图像帧中，先利用二维的位置滤波器来确定目标的新候选位置，再利用一维的尺度滤波器以目标的当前中心位置为中心点，获取不同尺度的候选框，从而找到最匹配的尺度，从而可以使得帧率可达100+fps，准确度大于0.8，可以完全满足移动终端上人脸标定的要求。

步骤S104中根据第三神经网络模型对人脸的标定结果，获取所述人脸在待处理的图像帧中的位置和尺度；根据所述位置和尺度，以及预设的位置模型和尺度模型，确定所述人脸在待处理的图像帧之后的图像帧中的位置和尺度。可选地，在确定所述人脸在待处理的图像帧之后的图像帧中的位置和尺度之后，还可以根据确定的所述位置和尺度，对预设的位置模型和尺度模型进行更新。

其中，待处理的图像帧之后的图像帧可以是与当前图像帧相邻后一的图像帧，也可以是间隔数帧之后的图像帧。

示例性地，人脸跟踪模型的输入(input)包括：1)t时刻的图像I(t)；2)上一帧的人脸位置P(t-1)和尺度S(t-1)；3)上一帧的位置模型A_trans(t-1)，B_trans(t-1)和尺度模型A_scale(t-1)，B_scale(t-1)。输出(output)包括：1)当前帧的人脸估计位置P(t)和估计尺度S(t)；2)更新后的位置模型A_trans(t)，B_trans(t)和尺度模型A_scale(t)，B_scale(t)。

其中，对于位置模型和尺度模型可以通过以下方式确定：

对于某一图像g，可以用输入图像f和滤波器h进行表示如下公式(2)：

其中，表示叉乘。

根据卷积定理，函数互相关的傅里叶变换等于函数傅里叶变换的乘积，对公式(1)进行处理得到如下公式(3)：

其中，F()表示傅里叶变换，表示F(h)的复共轭。

将公式(2)进行简化为如下公式(4)：

其中，G为F(g)的简化，F为F(f)的简化，为的简化。

设定线性最小二乘误差函数如下公式(5)：

其中，ε表示误差；l＝1，…，d，d表示图像F的特征向量的维数；H^l表示对第l维特征进行滤波；F^l表示图像F的第l维特征向量；“|| ||”表示欧式距离；|| ||²表示求平方和；表示误差的正则式，用来减小优化中的过拟合问题；λ表示正则式的权值参数。

通过对公式(4)求误差函数的最小化，最终求解的滤波器如下公式(6)：

其中，表示G的复共轭，表示F^K的复共轭，k＝1，…，d，d表示图像F的特征向量的维数；l＝1，…，d，d表示图像F的特征向量的维数。

那么对于某一时刻i的滤波器计算式如下公式(7)：

其中，

其中，t＝1，…，N，N表示图像帧的数量，η为训练参数，可以表示为学习率。

在进行位置跟踪时，基于位置滤波器获取与位置有关的G、F、位置模型A_trans()和B_trans()；进行尺度跟踪时，基于尺度滤波器获取与尺度有关的G、F、尺度模型A_scale()和B_scale()。

进行位置估计的过程如下：a)根据人脸在上一图像帧的位置P(t-1)和尺度S(t-1)，在当前图像帧l上，按照2倍目标大小采样，得到样本Ztrans；b)根据上一图像帧的位置模型A_trans(t-1)，B_trans(t-1)，计算位置响应，公式为：c)得到人脸位置P(t)＝max(y_trans)。

其中，y_trans表示位置滤波器响应值，表示离散傅里叶变换的逆变换，表示第t张图片的l通道向量，l＝1，…，d，d表示图像的特征向量的维数，λ表示权值参数。

进行尺度估计的过程如下：a)提取不同尺度的人脸样本Ztrans_scale；b)与上面同样的方式计算出y_scale，得到人脸尺度S(t)＝max(y_scale)。

进行模型更新的过程如下：a)从当前图像帧l(t)提取训练样本f_trans和f_scale；提取对应Hog特征、灰度特征，构造对应尺度的高斯响应函数；b)更新位置模型A_trans(t-1)、B_trans(t-1)和尺度模型A_scale(t-1)、B_scale(t-1)。

S105、判断是否跟踪成功；

本实施例中，步骤S105中具体可以根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功。

步骤S105中具体根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功包括：若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠等于设定的重叠阈值，则判定所述唯一性人脸区域跟踪成功；或者，若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠小于或者大于设定的重叠阈值，则判定所述唯一性人脸区域跟踪失败。

S106、若跟踪成功，判断是否继续进行标定；

可选地，若判定所述唯一性人脸区域跟踪成功，则将T+1时刻的唯一人脸区域作为所述第三神经网络模型的输入，以对过滤了非人脸的所述一批人脸区域进行处理，以确定T+2时刻的唯一人脸区域。

若跟踪失败，则跳转到步骤S101。即若判定所述唯一性人脸区域跟踪失败，则跳转到根据第一神经网络模型对人脸图片进行处理的步骤，以再次确定一批人脸区域。

判断是否继续进行标定具体可以通过设置的标定标志位或者设定的继续标定的条件比如连续标定的次数来确定。

S107A、若继续进行标定，则获取确定T+1时刻的唯一人脸区域，并跳转到步骤S103；

如果跟踪成功，那么从T+1时刻的唯一人脸区域上直接裁剪出输出的跟踪目标区域位置，并跳转到步骤S103，作为第三神经网络模型的输入，这样就可以得到更加准确的人脸区域位置和关键点标定位置。由于这步中省去了最为耗时的S101，可以提高3倍的预测时间，大大加快了预测效率。而且，第三神经网络模型的的输入直接为跟踪成功的唯一人脸区域，即较为准确的跟踪目标框，所以最后输出的人脸标定位置和关键点位置都更加稳定。

S107B、若不继续进行标定，则结束。

需要说明的是，在其他任一实施例中，也仅包括步骤S101-步骤S104，而步骤S105-步骤S107为进一步优化的技术方案或者进一步应用的技术方案。

图2为本申请实施例二中人脸区域标定装置的结构示意图；如图2所示，其包括：

具体地，本实施例中，所述第一程序单元进一步用于根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域。

具体地，本实施例中，所述第一程序单元进一步用于根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，确定一批人脸区域。

具体地，本实施例中，所述第二程序单元进一步用于根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域。

具体地，本实施例中，所述第二程序单元进一步用于根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，从所述一批人脸区域中过滤掉非人脸区域。

具体地，本实施例中，所述第三程序单元进一步用于根据第三神经网络模型中配置的不同卷积层和卷积核先后对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域和人脸关键点位置。

具体地，本实施例中，所述第四程序单元进一步用于根据人脸跟踪模型中的位置滤波器和尺度滤波器对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

图3为本申请实施例三中人脸区域标定装置的结构示意图；如图3所示，其除了包括图2中的第一程序单元、第二程序单元、第三程序单元、第四程序单元外，还可以包括：

在具体实施时，转换单元、输入单元可以作为第一程序单元的子结构，也可以为独立于第一程序单元的结构。

图4为本申请实施例四中人脸区域标定装置的结构示意图；如图4所示，其除了包括图2中的第一程序单元、第二程序单元、第三程序单元、第四程序单元、转换单元、输入单元外，还包括：反馈单元，用于根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功。

在具体实施时，所述反馈单元进一步用于若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠等于设定的重叠阈值，则判定所述唯一性人脸区域跟踪成功；或者，若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠小于或者大于设定的重叠阈值，则判定所述唯一性人脸区域跟踪失败。

在具体实施时，若判定所述唯一性人脸区域跟踪成功，则所述反馈单元进一步用于将T+1时刻的唯一人脸区域作为所述第三神经网络模型的输入，以对过滤了非人脸的所述一批人脸区域进行处理，以确定T+2时刻的唯一人脸区域。

需要说明的是，上述中第一、第二、第三、第四的表述并未对数量的限定，对于普通技术人员来说，程序模块之间可以复用或者共享，因此，上述程序模块的数量可能少于四个。

另外，上述程序模块并非一定要设置在同一物理位置处，也可以基于分布式架构，比如部分设置在前端的移动终端上，部分设置在后台服务器上。

本申请实施例还提供一种电子设备，其包括上述任一项实施例中所述的人脸区域标定装置。该电子设备可以PC，也可以是移动终端。本申请上述实施例的技术方案可以应用于表情识别、人脸漫画生成，增强现实，换脸等等场景。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如，机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)等，该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

本领域的技术人员应明白，本申请实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种人脸区域标定方法，其特征在于，包括：

根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域，T大于0；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，获取采集的原始人脸图片包括：通过电子终端的开发接口获取由电子终端设图像采集单元采集的原始人脸图片。

4.根据权利要求1所述的方法，其特征在于，根据第一神经网络模型对人脸图片进行处理，以确定一批人脸区域，包括：根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域。

5.根据权利要求4所述的方法，其特征在于，根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域，包括：根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，确定一批人脸区域。

6.根据权利要求1所述的方法，其特征在于，根据第二神经网络模型对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域，包括：根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域。

7.根据权利要求6所述的方法，其特征在于，根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域，包括：根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，从所述一批人脸区域中过滤掉非人脸区域。

8.根据权利要求1所述的方法，其特征在于，根据第三神经网络模型对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域，包括：根据第三神经网络模型中配置的不同卷积层和卷积核先后对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域和人脸关键点位置。

9.根据权利要求1所述的方法，其特征在于，根据人脸跟踪模型对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域，包括：根据人脸跟踪模型中的位置滤波器和尺度滤波器对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

10.根据权利要求1所述的方法，其特征在于，还包括：根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功。

11.根据权利要求10所述的方法，其特征在于，根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功包括：若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠等于设定的重叠阈值，则判定所述唯一性人脸区域跟踪成功；或者，若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠小于或者大于设定的重叠阈值，则判定所述唯一性人脸区域跟踪失败。

12.根据权利要求11所述的方法，其特征在于，若判定所述唯一性人脸区域跟踪成功，则将T+1时刻的唯一人脸区域作为所述第三神经网络模型的输入，以对过滤了非人脸的所述一批人脸区域进行处理，以确定T+2时刻的唯一人脸区域。

13.根据权利要求11所述的方法，其特征在于，判定所述唯一性人脸区域跟踪失败，则跳转到根据第一神经网络模型对人脸图片进行处理的步骤，以再次确定一批人脸区域。

14.一种人脸区域标定装置，其特征在于，包括：

15.根据权利要求14所述的装置，其特征在于，还包括：

16.根据权利要求14所述的装置，其特征在于，所述第一程序单元进一步用于根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理，以确定一批人脸区域。

17.根据权利要求16所述的装置，其特征在于，所述第一程序单元进一步用于根据第一神经网络模型中配置的不同卷积层和卷积核先后对人脸图片进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，确定一批人脸区域。

18.根据权利要求14所述的装置，其特征在于，所述第二程序单元进一步用于根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理，以从所述一批人脸区域中过滤掉非人脸区域。

19.根据权利要求18所述的装置，其特征在于，所述第二程序单元进一步用于根据第二神经网络模型中配置的不同卷积层和卷积核先后对所述一批人脸区域进行处理分别得到多个候选人脸区域框；根据多个候选人脸区域框的重叠以及设定的重叠阈值，从所述一批人脸区域中过滤掉非人脸区域。

20.根据权利要求14所述的装置，其特征在于，所述第三程序单元进一步用于根据第三神经网络模型中配置的不同卷积层和卷积核先后对过滤了非人脸的所述一批人脸区域进行处理，以确定T时刻的唯一人脸区域和人脸关键点位置。

21.根据权利要求14所述的装置，其特征在于，所述第四程序单元进一步用于根据人脸跟踪模型中的位置滤波器和尺度滤波器对T时刻的唯一人脸区域进行跟踪，以确定T+1时刻的唯一人脸区域。

22.根据权利要求14所述的装置，其特征在于，还包括：反馈单元，用于根据T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域，判断唯一人脸区域跟踪是否成功。

23.根据权利要求22所述的装置，其特征在于，所述反馈单元进一步用于若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠等于设定的重叠阈值，则判定所述唯一性人脸区域跟踪成功；或者，若T时刻的唯一人脸区域以及T+1时刻的唯一人脸区域的人脸区域框的重叠小于或者大于设定的重叠阈值，则判定所述唯一性人脸区域跟踪失败。

24.根据权利要求23所述的装置，其特征在于，若判定所述唯一性人脸区域跟踪成功，则所述反馈单元进一步用于将T+1时刻的唯一人脸区域作为所述第三神经网络模型的输入，以对过滤了非人脸的所述一批人脸区域进行处理，以确定T+2时刻的唯一人脸区域。

25.一种电子设备，其特征在于，包括权利要求14-24任一项所述的人脸区域标定装置。