CN110084258A

CN110084258A - 基于视频人脸识别的人脸优选方法、设备及存储介质

Info

Publication number: CN110084258A
Application number: CN201810143918.XA
Authority: CN
Inventors: 史方; 王标; 樊强
Original assignee: Chengdu View World Science And Technology Co Ltd
Current assignee: Chengdu View World Science And Technology Co Ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2019-08-02

Abstract

本发明涉及人脸识别领域，本发明针对现有技术中无法得到较好的多帧人脸特征融合数据的问题，提供一种基于视频人脸识别的人脸优选方法、设备及存储介质。该方法包括以下几个步骤：对视频中人脸目标进行跟踪得到一组人脸跟踪图像序列；从上述人脸跟踪图像序列中分别选取同一人脸的标准跟踪图像与所有人脸的综合跟踪图像；对所述标准跟踪图像的特征向量与所述综合跟踪图像的特征向量进行相似度计算；从所述人脸跟踪图像序列，选取符合条件的相似度对应的图像作为典型帧图像集合，并将此集合作为多帧人脸特征数据。

Description

基于视频人脸识别的人脸优选方法、设备及存储介质

技术领域

本发明涉及视频人脸识别领域，尤其是一种基于视频人脸识别的人脸优选方法、设备及存储介质。

背景技术

随着计算机视觉技术的快速发展，人脸识别作为一种高效、友好、安全的身份识别方式在众多领域被广泛应用。基于视频的人脸识别技术由于不需要人工干预、自动化程度高而得到人们的广泛认可。

视频人脸识别是基于人的面部特征信息，从视频中实时查找人脸，并与人脸数据库进行实时比对，从而实现快速身份识别的一种技术。由于现有的大部分人脸数据库都是目标图库，如何充分利用双动态视频中的人脸信息更好地进行人脸识别是现阶段迫切需要解决的问题。解决这类问题的传统做法可以分为两类：一类方法是对输入视频中的人脸进行跟踪，从中选择满足一定条件的人脸图像作为该跟踪目标的代表图像进行人脸识别；另一类方法是利用视频中的空间信息进行人脸识别，即采用若干种联合规则(如多数投票、最近距离等)对视频中的人脸序列进行识别验证。然而，对于双动态图像，也就是在双动态环境中采集到的图像，例如，行驶车辆上的摄像头采集路边行人图像，由于高速运动、车辆抖动、距离变化等因素导致采集到的双动态人脸图像出现运动模糊、抖动、遮挡、光线不足以及侧脸等质量问题。采用传统的人脸识别方法及装置识别人脸时，容易因图像质量问题造成人脸身份识别错误，或者需要通过多次识别才能正确识别出视频中的人脸身份，甚至无法识别人脸身份，这造成了视频人脸识别技术的准确率大打折扣。近年来，研究者针对如何有效利用视频的多帧信息有了新的尝试，基于视频的时域连续信息的识别技术得到了迅速发展， zou[1]等人提出基于多帧图像特征信息融合的人脸识别方法来解决此问题。他们通过对视频中的多帧人脸图像进行特征融合以降低人脸角度偏转、运动模糊、逆光等因素对单一人脸图像特征的影响，从而有效地提高人脸识别准确率。然而，如何在众多的图像序列中选取合适典型的识别特征的多帧人脸仍是一个难点。

发明内容

本发明所要解决的技术问题是：针对现有技术中无法得到较好的多帧人脸识别特征数据集问题，提供一种基于视频人脸识别特征的人脸优选方法、设备或存储介质。

为得到合适的多帧人脸特征融合数据的目的，本申请公开了如下技术方案；

一种基于视频人脸识别的人脸优选方法包括步骤：

对视频中人脸目标进行跟踪得到一组人脸跟踪图像序列；

从上述人脸跟踪图像序列中分别选取同一人脸的标准跟踪图像与所有人脸的综合跟踪图像；

对所述标准跟踪图像的特征向量与所述综合跟踪图像的特征向量进行相似度计算；

从所述人脸跟踪图像序列，选取符合条件的相似度对应的图像作为典型帧图像集合。

上述方案有益效果是：现有技术的人脸选取方法主要通过质量评价方法从图像序列中选取质量较好的图像作为典型帧。这种从人眼的主观视觉出发筛选图像的方法难以对人脸识别算法带来最有效地提升，因为人脸的识别算法是从图像中提取抽象的特征向量来表征人脸的身份信息，而这种特征向量与人眼的主观视觉并无严格的一致性。基于此，该方法从人脸识别的角度出发，利用识别算法的特征提取模型寻找人脸跟踪图像序列中特征有效的图像作为典型帧，从而对典型帧进行特征融合后能够更有效地表征跟踪目标的整体信息。

进一步，所述的人脸优选方法还包括：

通过典型帧图像集合(将图像集合的人脸识别特征，进行融合成一帧识别特征，并与目标图库的识别特征进行匹配)与图库中的人脸身份进行匹配，确认视频中所述跟踪的人脸目标的身份。

进一步，所述标准跟踪图像的选取是根据人脸图像质量评价模型进行选取；所述人脸图像质量评价模型是根据清晰度S1、姿态值S2、亮度S3、和/或分辨率S4形成。本方案中标准跟踪图像的选取我们采用的是清晰度、姿态、亮度、以及分辨率等几个指标综合评价得到，得到的标准跟踪图像准确度更高，为后续典型帧选取做了准备。

进一步的，所述人脸图像质量评价模型有以下几种情况：

1)、根据清晰度S1决定；

2)、根据清晰度S1与姿态值S2决定；

3)、根据清晰度S1与亮度S3决定；

4)、根据清晰度S1、姿态值与亮度S3决定；

5)、根据清晰度S1、姿态值、亮度S3与分辨率S4形成的。

有益效果：多帧人脸特征融合方法将人脸特征分为强相关性特征和弱相关性特征，强相关性特征反映了该人脸的最基本特征，它不随人脸的姿态变化、年龄变化、表情变化、环境变化等外在变化而发生明显变化；弱相关性特征则易受到外界环境的干扰而出现大的改变。多帧人脸特征融合方法通过将人脸特征中的强相关性特征增强，弱相关性特征抑制从而提高人脸识别的准确率。该方法虽能有效地利用视频的时域连续信息，但由于跟踪过程中易受到光线、姿态、运动模、遮挡等外部环境的干扰导致获取的人脸序列不仅质量参差不齐，而且可能出现错误的人脸图像。直接将跟踪到的人脸序列进行特征融合显然无法提高识别率，因此，需要对人脸序列进行筛选，本发明技术方案从清晰度S1、姿态值S2、亮度S3、和/或分辨率S4形成的，得到的标准跟踪图像准确度更高，为后续典型帧选取做了准备。

进一步的，所述清晰度值S1是通过人脸图像的高频信息进行衡量；姿态值S2是通过人脸图像的质心与几何中心的距离衡量人脸的姿态偏转程度值进行衡量；亮度值S3是通过根据图像的平均亮度值衡量；分辨率S4是通过图像宽度高度值衡量。有益效果：每个参数都与现有技术评价方法不一样，上述方法不仅速度快，便于视频的实时性要求，而且能够有效地表征人脸多个方面的质量。

进一步的，所述相似度计算是通过对标准跟踪图像的特征向量与所述综合跟踪图像的特征向量进行余弦计算或者欧式计算实现。该相似度计算是基于所述标准跟踪图像的人脸特征与所述综合跟踪图像的人脸特征，相似度的计算采用的是常用的人脸识别算法中的特征比对方法，这种比对方法能够有效地反映人脸间的特征相似度。最终，通过这种比对方法选取的典型帧必定是与标准跟踪图像特征相似度最高的图像。

进一步的，所述符合条件的相似度指的是相似度大于阈值的相似度。通过对相似度阈值的设定，能在有效范围内，得到所有可能以及精准的相似度对应的典型帧图像。本方案选取的相似度阈值是该人脸识别算法识别准确率最高情况下的阈值。特征相似度大于该阈值的两张图像会被识别算法认为是相同的人脸；反之，说明这两张图像的特征差别较大，用于后续的特征识别时，会影响融合特征的有效性。

进一步的，所述符合条件的相似度指的是将相似度值按照从大到小进行排序，取排名靠前的n个相似度值，其中，n范围是3到7。选取典型帧计算通过跟踪人脸序列中的所有人脸与标准跟踪图像的特征相似度，将各特征相似度值按照从大到小进行排序，取排名靠前的n个特征相似度值对应的人脸作为典型帧，n取3，5或7；n最佳取5。

一种存储设备，其中存储有多条指令，所述指令适用于由处理器加载并执行上述任一一项所述的基于视频人脸识别的人脸优选方法的步骤。

一种基于视频人脸识别的人脸优选设备包括处理器，适于实现各指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行上述任一一项所述的基于视频人脸识别的人脸优选方法的步骤。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

该方法从视频人脸序列中优选出一组最合适的人脸典型帧图像集合进行特征融合，从而有效提高人脸识别特征的鲁棒性。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明技术方案如下：一种基于视频人脸识别的人脸优选方法包括步骤：

S1：对视频中人脸目标进行跟踪得到一组人脸跟踪图像序列；

S2：从上述人脸跟踪图像序列中分别选取同一人脸的标准跟踪图像与所有人脸的综合跟踪图像；

S3：对所述标准跟踪图像的特征向量与所述综合跟踪图像的特征向量进行相似度计算；

S4：从所述人脸跟踪图像序列，选取符合条件的相似度对应的图像作为典型帧图像集合。

其中，

S1中，对视频中人脸目标进行跟踪，得到一组人脸跟踪图像序列，采用KCF 跟踪算法等现有技术算法。

人脸跟踪图像序列是通过对视频中的人脸目标进行检测和跟踪可得到一组人脸跟踪图像序列{I_t|t＝1,2,…k}；该人脸跟踪图像序列是只要有人脸的按照时间先后排列的图像序列，该人脸跟踪图像序列可以是连续的图像序列或者不连续帧的图像序列。

S2中，标准跟踪图像的特征向量是通过提取人脸跟踪图像序列中对同一人脸目标特征得到的的特征向量；综合跟踪图像的特征向量是通过提取人脸跟踪图像序列中所有人脸特征得到的特征向量。

S3中，标准跟踪图像的特征向量指的是根据人脸图像质量评价模型得到的图像的特征向量；综合跟踪图像的特征向量是采用SphereFace[2]、DeepID[3]、 FaceNet[4]等方法进行人脸图像的特征提取的。其中人脸图像质量评价模型如实施例一到实施例五。

S4中，所述相似度计算是通过对标准跟踪图像的特征向量与所述综合跟踪图像的特征向量进行余弦计算或者欧式计算实现；如实施例六或实施例七中部分内容。

S4中，典型帧图像集合计算过程如实施例六、实施例七或实施例八。

一、基于人脸图像质量评价模型的标准跟踪图像选取：

标准跟踪图像的选取是根据人脸图像质量评价模型选取的。所述人脸图像质量评价模型有以下几种情况：

情况1)、根据清晰度S1决定；

情况2)、根据清晰度S1与姿态值S2决定；

情况3)、根据清晰度S1与亮度S3决定；

情况4)、根据清晰度S1、姿态值与亮度S3决定；

情况5)、根据清晰度S1、姿态值、亮度S3与分辨率S4形成的。

所述清晰度值S1是通过人脸跟踪图像序列的高频信息衡量的；姿态值S2 是通过人脸跟踪图像序列的质心与几何中心的距离衡量人脸的姿态偏转程度值衡量的；亮度值S3是通过人脸跟踪图像序列的平均亮度值衡量；分辨率S4 是通过人脸跟踪图像序列宽度高度值衡量。具体的，所述清晰度值S1是通过对人脸跟踪图像序列的高频信息进行归一化处理得到；姿态值S2是通过人脸跟踪图像序列的质心与几何中心的距离衡量人脸的姿态偏转程度值归一化得到；亮度值S3是根据人脸跟踪图像序列的平均亮度值归一化处理得到的；分辨率S4是根据人脸跟踪图像序列宽度高度值进行计算得到。

实施例一：根据清晰度S1决定所述人脸图像质量评价模型具体过程是： S＝S1。

实施例二：根据清晰度S1与姿态值S2决定所述人脸图像质量评价模型具体过程是：其中w_l为清晰度S1与姿态值S2的权值，根据多次试验得到{w_l|l＝1,2}＝{1,0.9}；或者{w_l|l＝1,2}＝{1,1}等其他任意值组合。

实施例三：根据清晰度S1与亮度S3决定所述人脸图像质量评价模型具体过程是：其中w_l为清晰度S1与亮度值S3的权值，根据多次试验得到{w_l|l＝1,3}＝{1,0.9,0.6}；或者{w_l|l＝1,3}＝{1,1}等等其他任意值组合。

实施例四；根据清晰度S1、姿态值S2与亮度S3决定所述人脸图像质量评价模型具体过程是：{w_l|l＝1,2,3}＝{1,0.9,0.6}；或者 {w_l|l＝1,2,3}＝{1,1,1}等其他任意值组合。其中w_l为清晰度S1、姿态值S3以及亮度值S3的权值实施例五、根据清晰度S1、姿态值S2、亮度值S3与分辨率S4决定所述人脸图像质量评价模型具体过程是：

综合上述几个人脸图像质量评价指标(评价指标指的是清晰度S1、姿态值 S2、亮度值S3与分辨率S4)，人脸图像质量评价模型可表征如下：

其中w_l为各个评价指标的权值，根据多次试验得到{w_l|l＝1,2,3,4}＝ {1,0.9,0.6,0.8}；或者{w_l|l＝1,2,3,4}＝{1,1,1,1}等其他任意值组合。

S即为各人脸跟踪图像序列的综合质量评价指标，S越大，则人脸跟踪图像序列的质量越好。因此，从人脸跟踪图像序列中选取人脸质量指标S最大的人脸跟踪图像序列作为标准跟踪图像,记为FI。

其中，评价指标1(清晰度S1)评价过程

人脸清晰度是指人脸跟踪图像序列中细节纹理及边界的清晰程度，人脸清晰度越高则人脸跟踪图像序列纹理越清晰。由于人脸跟踪图像序列的纹理信息主要集中在人脸跟踪图像序列的高频信息中，因此，人脸跟踪图像序列的清晰度可通过人脸跟踪图像序列中人脸跟踪图像高频信息的多少来衡量。人脸跟踪图像序列的高频信息表示如下：

其中，I_t表示人脸跟踪图像序列第t张人脸跟踪图像；Id_t是通过对I_t进行 3x3或5x5的中值滤波、均值滤波或其他低通滤波后得到的低频人脸图像。

对人脸跟踪图像序列的人脸跟踪图像的高频信息进行归一化，可得：

其中，E_max是该人脸跟踪图像序列中高频信息最大的人脸跟踪图像高频信息值。

评价指标2(姿态值S2)评价过程：

传统的姿态评价方法主要是通过对人脸进行标定，找到人眼位置以及垂直对称轴计算人脸的偏转角度，这种方式不仅速度较慢，而且容易受到模糊、遮挡以及外部环境的影响导致标定错误从而影响姿态检测的有效性。本文采用计算人脸跟踪图像序列的每个人脸跟踪图像的质心与几何中心的距离衡量人脸的姿态偏转程度，人脸跟踪图像序列的每个人脸跟踪图像的质心位置计算如下：

其中，β_t是由人脸跟踪图像序列的第t张人脸跟踪图像I_t经过二值化后得到的灰度图像；(xm,ym)即为人脸跟踪图像序列的人脸跟踪图像的质心。人脸跟踪图像序列的每个人脸跟踪图像的几何中心表达方式如下：

其中，(p_x(0,0),p_y(0,0))表示人脸跟踪图像序列的人脸跟踪图像左上角的坐标位置；(p_x(m,n),p_y(m,n))代表人脸跟踪图像序列的每个人脸跟踪图像右下角坐标位置；(xc,yc)即为人脸图像的几何中心。根据人脸跟踪图像序列的每个人脸跟踪图像的质心以及几何中心可得：

其中，D为人脸跟踪图像序列的每个人脸跟踪图像的几何中心与质心的距离。人脸偏转角度越大，则二者间的距离D越远；人脸偏转角度越小，二者间的距离D越近。因此，可以使用D的大小衡量人脸的偏转程度，将D归一化即可得人脸的姿态评价指标：

其中，D_min是该人脸跟踪图像序列的所有人脸跟踪图像中人脸姿态偏移最小的人脸跟踪图像的几何中心与质心的距离。

评价指标3(亮度值S3)评价过程：

合适的光照强度是人眼观察图像的基本条件，也是影响图像质量的重要因素，亮度过强或过弱都会影响图像质量。正常情况下，图像的平均亮度分布在图像的最小亮度值I_min与最大亮度值I_max之间。根据大量的实验表明，图像的平均亮度分布在I_min与I_max之间X1到X2的区域较为合适，平均亮度分布小于 X1(X1等于40％)或者大于X2(X2等于60％)的区域都将会影响图像的质量，因此，人脸跟踪图像序列的每个人脸跟踪图像的亮度指标可表示如下：

其中，表示人脸跟踪图像序列的每个人脸跟踪图像的平均亮度；I_max表示人脸跟踪图像序列的每个人脸跟踪图像的最大亮度值；I_min表示人脸跟踪图像序列的每个人脸跟踪图像的最小亮度值；δ表示图像亮度的归一化值；X1*Y＝1。

评价指标4(分辨率S4)评价过程：

人脸图像的分辨率反映了人脸图像在视频中的大小。正常情况下，人脸跟踪图像序列的人脸跟踪图像越大则越有利于观看和识别，因此，人脸跟踪图像序列的人脸跟踪图像的分辨率也是图像质量评价的重要指标。人脸跟踪图像序列的人脸跟踪图像的分辨率指标表示如下：

其中，width表示人脸跟踪图像序列的人脸跟踪图像的宽度；height表示人脸跟踪图像序列的人脸跟踪图像的高度；min{·}表示取较小值，即分辨率指标和1比较并取其中较小值。

二、典型帧图像选取：

传统的人脸识别方法往往直接将该人脸图像作为输入图像与目标图库进行对比识别，虽然在一定程度上能提高识别准确度，但是也存在以下不足：1) 无法利用视频的多帧信息优势提高匹配率；2)根据传统的质量评价方法选取的最优图像是从人眼主观视觉出发寻找最满足人眼识别的图像，无法确定能否对人脸识别算法带来最佳帮助。现有的人脸选取方法主要通过质量评价方法从图像序列中选取质量较好的图像作为典型帧。这种从人眼的主观视觉出发筛选图像的方法难以对人脸识别算法带来最有效地提升，因为人脸的识别算法是从图像中提取抽象的特征向量来表征人脸的身份信息，而这种特征向量与人眼的主观视觉并无严格的一致性。基于此，本专利从人脸识别的角度出发，利用识别算法的特征提取模型寻找人脸跟踪图像序列中特征有效的图像作为典型帧，从而对典型帧进行特征融合后能够更有效地表征跟踪目标的整体信息。

典型帧选取原则是：对所述标准跟踪图像的人脸特征与所述综合跟踪图像的人脸特征进行相似度计算后选取：即从人脸跟踪图像序列中选取相似度大于阈值(阈值范围是0.5到1)的图像作为典型帧图像集合。

实施例六(相似度计算)：

在人脸识别过程中，特征选取的好坏直接影响到识别结果的有效性。本专利采用目前最具代表性的深度学习算法进行人脸图像的特征提取，优选的，采用SphereFace[2]、DeepID[3]、FaceNet[4]等方法进行人脸图像的特征提取。

在人脸识别中，反映目标图像与待识别图像相似程度的方法是通过比较二者人脸特征的相关性。同理，为从人脸跟踪图像序列中选取合适的人脸图像进行特征融合，本文将跟踪序列中综合跟踪图像的人脸特征向量与标准跟踪图像 FI的人脸特征向量F进行如下的余弦计算(即通过余弦定理计算)：

其中，F_t表示第t张人脸图像的特征向量；‖·‖表示对向量求2范数； SIM(F_t,F1表示F_t与标准跟踪图像特征F的相似度，取值范围为[0,1]， SIM(F_t,F)越大表示二者越相似。从人脸跟踪图像序列中选取相似度大于阈值(阈值范围是0.5到1)的图像作为典型帧图像集合。

实施例七(相似度计算)：在实施例六或7基础上，计算本文将跟踪序列中综合跟踪图像的人脸特征向量与标准跟踪图像FI的人脸特征向量F进行如下的余弦计算相似度；然后将相似度值按照从大到小进行排序，从人脸跟踪图像序列中选取排名靠前的n个相似度值对应的人脸作为典型帧图像集合，n范围是 3到7，n最佳取5。

三：人脸身份识别过程：

所述的人脸优选方法还包括：

通过典型帧图像集合与目标图库中的人脸身份进行匹配，确认视频中所述跟踪的人脸目标的身份。其中，目标图库中人脸都是已知身份的目标；

具体过程是：

人脸图像的典型帧图像集合，通过人脸特征提取算法(采用SphereFace[2]、DeepID[3]、FaceNet[4]等方法进行人脸图像的特征提取)有对应的归一化特征向量{f_i|i＝1,2,…|t}，|t为典型帧图像集合的长度。多特征融合方法是利用视频中抓取的多帧人脸图像特征向量生成一组线性权值{a_i|i＝1,2,…|t}，，满足通过：

通过(12)可将所有的典型帧图像集合的典型帧特征向量{f_i|i＝1,2,…|t} 融合为一个特征向量r，与目标图库中的人脸特征进行比较，若目标图库中的人脸特征中存在典型帧特征向量，则确定该跟踪人脸身份；否则，说明该跟踪目标是外来人员。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于视频识别的人脸跟踪方法，其特征在于，包括步骤：

对视频中人脸目标进行跟踪得到一组人脸跟踪图像序列；

对所述标准跟踪图像的识别特征向量与所述综合跟踪图像的识别特征向量进行相似度计算；

2.根据权利要求1所述的人脸优选方法，其特征在于还包括：

通过典型帧图像集合与目标图库中的人脸身份进行匹配，确认视频中所述跟踪的人脸目标的身份。

3.根据权利要求1所述的人脸优选方法，其特征在于所述标准跟踪图像的选取是根据人脸图像质量评价模型选取的。

4.根据权利要求3所述的人脸优选方法，其特征在于所述人脸图像质量评价模型有以下几种情况：

1)、根据清晰度S1决定；

2)、根据清晰度S1与姿态值S2决定；

3)、根据清晰度S1与亮度S3决定；

4)、根据清晰度S1、姿态值与亮度S3决定；

5)、根据清晰度S1、姿态值、亮度S3与分辨率S4形成的。

5.根据权利要求4所述的人脸优选方法，其特征在于所述清晰度值S1是通过人脸图像的高频信息衡量的；姿态值S2是通过人脸图像的质心与几何中心的距离衡量人脸的姿态偏转程度值衡量的；亮度值S3是通过根据图像的平均亮度值衡量；分辨率S4是通过图像宽度高度值衡量。

6.根据权利要求1所述的人脸优选方法，其特征在于所述相似度计算是通过对标准跟踪图像的识别特征向量与所述综合跟踪图像的识别特征向量进行余弦计算或者欧式计算实现。

7.根据权利要求1所述的人脸优选方法，其特征在于所述符合条件的相似度指的是相似度大于阈值的相似度。

8.根据权利要求1所述的人脸优选方法，其特征在于所述符合条件的相似度指的是将相似度值按照从大到小进行排序，取排名靠前的n个相似度值，其中，n范围是3到7。

9.一种存储设备，其中存储有多条指令，所述指令适用于由处理器加载并执行如权利要求1至8任意一项所述的基于视频人脸识别的人脸优选方法的步骤。

10.一种基于视频人脸识别的人脸优选设备，其特征在于包括处理器，适于实现各指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行上述权利要求1至8任意一项所述的基于视频人脸识别的人脸优选方法。