CN111539263B

CN111539263B - 一种基于聚合对抗网络的视频人脸识别方法

Info

Publication number: CN111539263B
Application number: CN202010253595.7A
Authority: CN
Inventors: 陈莹; 金炜
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-08-11
Anticipated expiration: 2040-04-02
Also published as: CN111539263A

Abstract

本发明公开了一种基于聚合对抗网络的视频人脸识别方法，属于视频人脸识别技术领域。所述方法采用由聚合网络、判别网络和识别网络构建得到的聚合对抗网络，聚合网络与判别网络形成对抗学习，以竞争的方式使生成的图像和目标集静态图像更加接近；通过识别网络在高维特征空间计算感知损失，使得生成的图像和对应的目标集静态图像在感知性能上更加接近，提高了聚合网络的性能。判别网络采用softmax多维度输出的形式，除了能判断图像真假之外，还可以辨别图像的身份类别，使得生成图像的身份与真实值更接近，使得后续的识别更加精准且识别效率更高。

Description

一种基于聚合对抗网络的视频人脸识别方法

技术领域

本发明涉及一种基于聚合对抗网络的视频人脸识别方法，属于视频人脸识别技术领域。

背景技术

视频人脸识别技术，顾名思义，就是基于视频进行人脸识别。随着技术和需求的日益发展，视频人脸识别技术已经应用在诸多领域，比如智能安防、视频监控、公安侦查等众多领域。

视频人脸识别与基于单张图像的人脸识别不同，视频人脸识别的查询集是一段视频序列，而其目标集通常是一张高清人脸图像，通过提取视频序列的人脸特征并在目标集中进行匹配，进而识别出视频中人物的身份。

但是在视频人脸识别最常见的视频监控场景中，往往拍摄到的视频序列中的人脸存在运动模糊、噪声和遮挡等情况，因此与目标集人脸有着很大的差异，而目前无论是传统方法还是基于深度学习的方法都不能很好地处理这些差异，造成识别效果不佳。

另外，目前视频人脸识别的方法都是逐一对视频序列提取特征，不仅会造成测试时间过长，还会导致识别结果易受视频序列中低质量帧的干扰。

发明内容

为了解决现有视频人脸识别技术中效率较低以及精度不高的问题，本发明提供了一种视频人脸识别方法，所述方法在识别过程中，采用聚合对抗网络将多个低质量视频序列聚合成单张高质量正面人脸图像，并在聚合过程中通过对抗学习的方式提高生成正面人脸图像的质量，从而准确的进行视频人脸识别；

所述聚合对抗网络由聚合网络、判别网络和识别网络组成，其中，聚合网络和判别网络形成对抗学习，以竞争的方式使生成的图像和目标集静态图像更加接近，识别网络在高维特征空间计算感知损失，使得生成的正面人脸图像和对应的目标集静态图像在感知性能上更加接近。

可选的，所述判别网络采用softmax多维度输出的形式，输出N+1维向量；其中N为身份类别数目，剩余一维表示对应图像的真假，“真”表示对应图像为静态图像，“假”表示对应图像为合成图像。

可选的，所述方法包括：

S1构造聚合网络G，并通过聚合损失L_agg预训练聚合网络G，得到聚合网络G预训练模型；

S2载入聚合网络G预训练模型，构造判别网络D和识别网络R，计算对抗损失L_adv和感知损失L_per；

S3采用加权和的形式联合聚合损失L_agg、对抗损失L_adv和感知损失L_per来构造最终损失函数L，L＝L_agg+λL_adv+αL_per；λ、α分别为对抗损失L_adv和感知损失L_per的权重系数，给聚合损失L_agg、对抗损失L_adv和感知损失L_per分配不同的权重系数值，对聚合网络G进行训练，待聚合网络G预训练模型收敛后保存模型参数，得到聚合对抗网络视频人脸识别模型；

S4对S3得到的聚合对抗网络视频人脸识别模型进行测试，测试完成后即可使用所述聚合对抗网络视频人脸识别模型进行视频人脸识别的实际应用。

可选的，所述S1之前还包括：

获取训练视频序列数据集，记为V＝{v₁,v₂,...,v_i,...,v_N}，其中v_i表示第i个类别视频序列，i＝1,2,...,N，N为视频序列的类别数；

获取与V对应的静态图像数据集，记为S＝{s₁,s₂,...,s_i,...,s_N}，其中s_i表示第i个类别对应的静态图像。

可选的，所述S1包括：

通过聚合网络生成图像G(V_i ^k)：聚合网络G的输入是对应于同一类别v_i的k张连续视频帧，输出是对应类别v_i的单张高质量正脸图像，定义生成图像为G(V_i ^k)，k是一个超参数，表示聚合网络输入视频帧的个数，V_i ^k表示k帧连续的第i类别的视频序列；

计算L_agg损失，S_i表示和V_i ^k相同类别的静态图像，通过梯度更新聚合网络G的参数，L_agg采用像素级L2损失函数计算得到；

待聚合网络G收敛后，保存网络模型参数，得到聚合网络G预训练模型。

可选的，所述S2包括：

载入聚合网络G预训练模型，得到生成图像G(V_i ^k)以及相对应的静态图像S_i；

构造判别网络D，判别网络D首先通过两个步长为1的卷积层来将原始图像转换为特征图，然后通过三个由步长为2的卷积与残差块的组合对特征进行解码，接着通过池化层对解码后的特征进行下采样，最后经过全连接层，输出N+1维的向量表示对应图像的身份和真假信息；

将生成图像G(V_i ^k)和之相对应的静态图像S_i送入判别网络D当中，计算对抗损失其中D_i表示判别网络D的第i维输出；

构造识别网络R，识别网络R采用人脸识别网络LightCNN，将生成图像G(V_i ^k)和与之相对应的静态图像S_i送入识别网络R当中，计算感知损失其中R(·)表示识别网络倒数第二层池化层的特征值。

可选的，所述S3中：λ＝0.01，α＝0.003。

可选的，所述S4中对聚合对抗网络视频人脸识别模型进行测试的过程，包括：

测试时的目标集静态图像记为S＝{s₁,s₂,...,s_j,...,s_M}，将其分别送入识别网络R得到最后一层特征值F＝{f₁,f₂,...,f_j,...,f_M}，其中，M表示身份总类别数；f_j表示身份类别为j的人的目标集静态图像的特征；

用摄像头实时捕捉人脸画面，将截取的未知类别的人脸视频序列记为V作为聚合网络G的输入，得到未知类别的生成图像G(V)；

将生成的图像G(V)送入R中得到待查询特征f_v，分别计算生成图像的特征f_v与目标集特征F＝{f₁,f₂,...,f_j,...,f_M}的欧式距离，距离最小的对应类别即为最终识别结果。

本发明还提供上述视频人脸识别方法在人脸识别技术领域内的应用。

可选的，所述人脸识别技术领域包括智能安防、视频监控和公安侦查。

本发明有益效果是：

本发明将图像生成技术融入到视频人脸识别中，通过聚合网络将多个低质量视频序列聚合成单张高质量正面人脸图像，解决了目前视频人脸识别技术中逐帧提取图像特征的弊端，提升了视频人脸识别效率。

本发明所构建的聚合对抗网络由聚合网络、判别网络和识别网络三个网络组成，聚合网络与判别网络形成对抗学习，以竞争的方式使生成的图像和目标集静态图像更加接近；通过识别网络在高维特征空间计算感知损失，使得生成的图像和对应的目标集静态图像在感知性能上更加接近，提高了聚合网络的性能。

本发明所设计的判别网络采用softmax多维度输出的形式，除了能判断图像真假之外，还可以辨别图像的身份类别，通过一种包含身份类别信息的对抗损失来保证生成图像的身份类别与目标集静态图像一致，使得生成图像的身份与真实值更接近，使得后续的识别更加精准且识别效率更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所提供的一种基于聚合对抗网络的视频人脸识别技术的流程图。

图2为本发明所使用的聚合对抗网络的网络结构图。

图3A为本发明所使用的视频序列数据集的部分子集展示图。

图3B为对应于图3A的静态图像的真实值展示图。

图3C为本发明最终通过视频序列合成的图像结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供了一种基于聚合对抗网络的视频人脸识别方法，参见图1，所述方法包括：

步骤1、获取训练集，包括视频序列数据集V和对应的静态图像数据集S：

步骤1.1、获取训练视频序列数据集，记为V＝{v₁,v₂,...,v_i,...,v_N}，其中v_i表示第i个类别视频序列，i＝1,2,...,N，N为视频序列的类别数；

实际应用中，N表示V中出现的不同的人的数目，对应于同一人的视频序列称为一类。

步骤1.2、获取与V对应的静态图像数据集，记为S＝{s₁,s₂,...,s_i,...,s_N}，其中s_i表示第i个类别对应的静态图像；

实际应用中，可采用高清相机拍摄得到S，而在一些实际的视频监控场景中，S中图片通常为身份证上照片，或者是专门拍摄的照片。

视频序列数据集V如图3A所示，会伴随一些遮挡、运动模糊、噪声和侧脸一些情况；静态图像数据集S如图3B所示，是在良好的环境下拍摄，都是清晰的正脸图像。

步骤2、构造聚合网络G，并通过聚合损失L_agg预训练聚合网络G：

聚合对抗网络整体框架如图2所示，在本实施例中，聚合对抗网络由三个网络组成：聚合网络、判别网络和识别网络。

步骤2.1、通过聚合网络生成图像G(V_i ^k)；

聚合网络G的输入是对应于同一类别v_i的k张连续视频帧，输出是对应类别v_i的单张高质量正脸图像，定义生成图像为G(V_i ^k)，k是一个超参数，表示聚合网络输入视频帧的个数，V_i ^k表示k帧连续的第i类别的视频序列。

聚合网络G采用一种编码解码形式的网络结构，从图2中可知聚合网络首先由两个步长为1的卷积层来提取浅层特征，然后通过三个由步长为2的卷积与残差块的组合对浅层特征进行下采样(编码)，接着通过两个由反卷积与残差块的组合上采样(解码)得到与原图大小相同的特征，最后通过两个卷积运算和一个sigmoid函数得到最后的高清人脸图像。

步骤2.2、计算L_agg损失，S_i表示和V_i ^k相同类别的静态图像，通过梯度/>更新聚合网络G的参数，L_agg采用像素级L2损失函数计算得到，可以加速网络的收敛；

步骤2.3、待聚合网络G收敛后，保存网络模型参数以便后续正式训练；

步骤3、载入聚合网络G预训练模型，构造判别网络D和识别网络R，通过加入对抗损失L_adv和感知损失L_per共同更新聚合网络G的参数：

步骤3.1、载入聚合网络G预训练模型，得到生成图像G(V_i ^k)以及相对应的静态图像S_i；

步骤3.2、构造判别网络D，与传统GAN(Generative Adversarial Networks生成式对抗网络)中判别网络不同的是，本发明中的判别网络D不仅能区分真假(真表示静态图像，假表示合成图像)，还能够预测合成图像的身份。

不同于传统判别网络，本发明中判别网络D的输出经过一个softmax函数，是一个N+1维的向量，其中N是身份类别数目，通过对抗学习的方式使合成图像最大化保留身份信息，剩下一维用来判断其真假。

步骤3.3、将生成图像G(V_i ^k)和之相对应的静态图像S_i送入判别网络D当中，计算对抗损失其中D_i表示判别网络D的第i维输出。对于判别网络D，它的目标是最大化对抗损失L_adv，而对于聚合网络，它要使对抗损失L_adv最小化；

换而言之，当D的输入是一张静态图像S_i时，D希望D_N+1(S_i)和D_i(S_i)都最大化为1；当D的输入是合成图像G(V_i ^k)时，D则希望和D_i(G(V_i ^k))都最小化为0，而G则希望D_N+1(G(V_i ^k))和D_i(G(V_i ^k))都最大化为1，因此两者在判断身份类别和判断真假上都形成了对抗学习；

步骤3.4、构造识别网络R，R网络采用现有的人脸识别网络LightCNN，将生成图像G(V_i ^k)和与之相对应的静态图像S_i送入识别网络R当中，计算感知损失其中R(·)表示识别网络倒数第二层池化层的特征值，感知损失让生成图像G(V_i ^k)与静态图像S_i在高维特征空间更加接近，感知相似度更高，同时保留了合成图像中最明显的人脸细节，这更加有利于识别过程；

人脸识别网络LightCNN可参考Xiang Wu的“A Light Cnn for Deep FaceRepresentation with Noisy Labels”，该文章于2018发表在《IEEE Transactions onInformation Forensics and Security》第2884-2896页。

步骤3.5、采用加权和的形式联合聚合损失L_agg、对抗损失L_adv和感知损失L_per来构造最终损失函数L，L＝L_agg+λL_adv+αL_per，λ＝0.01，α＝0.003，给不同的损失分配不同的权重系数，利用随机梯度下降算法(Stochastic Gradient Descent，SGD)对网络进行训练，待网络模型收敛后保存模型参数；

随机梯度下降算法的具体方法可参考Leon Bottou的“Stochastic GradientDescent Tricks”，该文章于2012发表在《Neural networks:Tricks of the trade》第421-436页。

步骤4、视频人脸识别测试过程：

步骤4.1、首先将测试时的目标集静态图像记为S＝{s₁,s₂,...,s_j,...,s_M}，将其分别送入识别网络R得到最后一层特征值F＝{f₁,f₂,...,f_j,...,f_M}，其中，M表示身份总类别数；f_j表示身份类别为j的人的目标集静态图像的特征；

步骤4.2、用摄像头实时捕捉人脸画面，将截取的未知类别的人脸视频序列记为V作为聚合网络G的输入，得到未知类别的生成图像G(V)，如图3C所示；

步骤4.3、将生成的图像G(V)送入R中得到待查询特征f_v，分别计算生成图像的特征f_v与目标集特征F＝{f₁,f₂,...,f_j,...,f_M}的欧式距离，距离最小的对应类别即为最终识别结果。

步骤5、为了体现聚合对抗网络的性能的优越性，本申请在COX Face视频人脸数据集上与VGG-Face、GERML、TBE-CNN、Haar-Net这些目前先进的方法进行比较，COX Face包含V1、V2和V3三个子集，其中V1和V2子集图像质量较V3要差很多，更加符合监控场景。

比较结果如表1所示，从表1中可知，对于V1和V2子集，本发明的识别精度分别为89.6和88.5，超过第二算法0.3和0.6，但在图像质量较好的V3子集上效果相对较差，但也仅次于Haar-Net算法。同时本发明构建的聚合对抗网络参数量和网络层数分别为7.6和34层，相比Haar-Net分别少5.5M和22层，因此在相同时间内本发明中聚合对抗网络处理效率更高，计算更快。由此可知，本发明中的聚合对抗网络在监控视频场景下，无论识别精度还是计算复杂度，要明显优于其他方法。

表1：本申请与VGG-Face、GERML、TBE-CNN、Haar-Net方法的比较结果

COX Face视频人脸数据集可参考Huang Zhiwu的“A Benchmark and ComparativeStudy of Video-based Face Recognition on Cox Face Database”，该文章于2015发表在《IEEE Transactions on Image Processing》第5967–5981页。

VGG-Face可参考Omkar M.Parkhi的“Deep Face Recognition”，该文章于2015发表在《British Machine Vision Conference》第6页。

GERML可参考Huang Zhiwu的“Cross euclidean-to-riemannian metriclearning with application to face recognition from video”，该文章于2018发表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》第2827–2840页。

TBE-CNN可参考Changxing Ding的“Trunk-branch Ensemble ConvolutionalNeural Networks for Video-based Face Recognition”，该文章于2018发表在《IEEETransactions on Pattern Analysis and Machine Intelligence》第1002–1014页。

Haar-Net可参考Parchami Mostafa的“Video-based Face Recognition UsingEnsemble of Haar-like Deep Convolutional Neural Networks”，该文章于2017发表在《International Joint Conference on Neural Networks》第4625-4632页。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频人脸识别方法，其特征在于，所述方法在识别过程中，采用聚合对抗网络将多个低质量视频序列聚合成单张高质量正面人脸图像，并在聚合过程中通过对抗学习的方式提高生成正面人脸图像的质量，从而准确的进行视频人脸识别；

所述聚合对抗网络由聚合网络、判别网络和识别网络组成，其中，聚合网络和判别网络形成对抗学习，以竞争的方式使生成的图像和目标集静态图像更加接近，识别网络在高维特征空间计算感知损失，使得生成的正面人脸图像和对应的目标集静态图像在感知性能上更加接近；

所述方法包括：

S4对S3得到的聚合对抗网络视频人脸识别模型进行测试，测试完成后即可使用所述聚合对抗网络视频人脸识别模型进行视频人脸识别的实际应用；

所述S1之前还包括：

获取与V对应的静态图像数据集，记为S＝{s₁,s₂,...,s_i,...,s_N}，其中s_i表示第i个类别对应的静态图像；

所述S1包括：

计算L_agg损失，S_i表示和V_i ^k相同类别的静态图像，通过梯度▽L_agg更新聚合网络G的参数，L_agg采用像素级L2损失函数计算得到；

待聚合网络G收敛后，保存网络模型参数，得到聚合网络G预训练模型；

所述S2包括：

构造判别网络D，通过两个步长为1的卷积层来将原始图像转换为特征图，然后通过三个由步长为2的卷积与残差块的组合对特征进行解码，接着通过池化层对解码后的特征进行下采样，最后经过全连接层，输出N+1维的向量表示对应图像的身份和真假信息；

2.根据权利要求1所述的方法，其特征在于，所述判别网络采用softmax多维度输出的形式，输出N+1维向量；其中N为身份类别数目，剩余一维表示对应图像的真假，“真”表示对应图像为静态图像，“假”表示对应图像为合成图像。

3.根据权利要求2所述的方法，其特征在于，所述S3中：λ＝0.01，α＝0.003。

4.根据权利要求3所述的方法，其特征在于，所述S4中对聚合对抗网络视频人脸识别模型进行测试的过程，包括：

测试时的目标集静态图像记为S＝{s₁,s₂,...,s_j,...,s_M}，将其分别送入识别网络R得到最后一层特征值F＝{f₁,f₂,...,f_j,...,f_M}，其中，M表示身份总类别数；fj表示身份类别为j的人的目标集静态图像的特征；

5.将权利要求1-4任一所述视频人脸识别方法在人脸识别技术领域内的应用。

6.根据权利要求5所述的应用方法，其特征在于，所述人脸识别技术领域包括智能安防、视频监控和公安侦查。