CN113076876B

CN113076876B - 一种基于三维结构监督和置信度加权的人脸欺骗检测方法和***

Info

Publication number: CN113076876B
Application number: CN202110359266.5A
Authority: CN
Inventors: 胡永健; 蔡楚鑫; 王宇飞; 葛治中; 刘琲贝; 李皓亮
Original assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Current assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2023-01-31
Anticipated expiration: 2041-04-02
Also published as: CN113076876A

Abstract

本发明公开了一种基于三维结构监督和置信度加权的人脸欺骗检测方法和***，包括数据预处理、模型训练与验证和模型测试：数据预处理抠取人脸并提取深度图；模型训练与验证将人脸送入特征提取模块提取特征，与位置信息拼接并送入三维结构重建模块获得三维结构特征，送入三维结构监督模块、二元监督模块，利用倒角损失、交叉熵损失进行监督，同时将预测深度图送入置信度预测模块预测置信度，对预测深度图进行修正，利用置信度损失进行惩罚，接着训练并保存模型，最后利用验证集确定阈值；模型测试加载模型，预测深度图和置信度，对深度图求均值并利用置信度进行修正，根据阈值判决分类结果。本发明保证库内准确率的同时，能有效提升泛化性能。

Description

一种基于三维结构监督和置信度加权的人脸欺骗检测方法和 ***

技术领域

本发明涉及人脸识别防欺骗检测技术领域，具体涉及一种基于三维结构监督和置信度加权的人脸欺骗检测方法和***。

背景技术

近年来，人脸识别由于其身份非侵入方式和可交互等特点，在用户身份认证中的应用越来越广泛，随着深度学习的快速发展，基于深度神经网络的人脸识别***也取得了很好的识别效果。但与此同时，针对人脸识别***的攻击也越发频繁，其中最常见的是视频重放、照片打印攻击和3D面具，对人脸识别***的安全性造成巨大威胁。因此，对人脸欺骗检测算法进行研究具有重要的现实意义。

现有的人脸欺骗检测算法可以分为基于活体线索、基于纹理线索、基于三维几何线索和基于多种线索融合四大类，每类方法又可细分为基于传统手工特征和基于神经网络提取特征。其中基于神经网络效果最优，不少算法在库内测试中准确率可达到99.5％以上，但几乎所有基于神经网络的方法在跨库测试中准确率明显下降，存在泛化性能不足的问题。为了提高神经网络的泛化性，一些算法尝试利用深度图作为辅助监督，但这仅仅引入了深度信息，没有考虑深度信息与位置有关，影响了泛化性能的提升；同时现有的人脸欺骗检测算法往往通过输出一个概率值作为判断输入是否为真脸的分数，而没有对判别分数的置信度进一步进行判断，无法反映不同环境的真实情况。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于三维结构监督和置信度加权的人脸欺骗检测方法，本发明保证库内准确率的同时，能有效地提升泛化性能。

本发明的第二目的在于提供一种基于三维结构监督和置信度加权的人脸欺骗检测***。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

一种基于三维结构监督和置信度加权的人脸欺骗检测方法，包括下述步骤：

设定人脸输入分辨率，获取人脸区域图像，提取用于网络训练的深度图；

构建特征提取网络模块，输入数据增强后的人脸图像，输出特征图；

构建三维结构重建网络，选择x轴、y轴归一化坐标，将所述特征图拼接后输入三维结构重建网络，获得预测三维结构标签，根据x轴、y轴归一化坐标选择并拼接所述深度图的对应深度值，获得真实的三维结构标签；

构建倒角损失函数衡量真实的三维结构标签和预测三维结构标签的差异，采用Map二元交叉熵损失衡量预测的深度图与真实的深度图的差异，完成三维结构监督模块的构建；将预测的深度图展平后输入全连接层、sigmoid激活层，并利用二元交叉熵损失进行监督，获得预测的真实人脸概率，完成二元监督模块的构建；

将所述预测的深度图展平后输入全连接层、sigmoid激活层，并采用置信度损失进行监督，获得预测的置信度，结合真实的深度值对预测的深度图进行修正，获得修正后的预测深度图和修正后的预测三维结构标签，完成置信度预测模块的构建；

对人脸图像进行实时数据增强，依次输入到特征提取网络模块、三维结构重建模块、三维结构监督模块、二元监督模块和置信度预测模块，以最小化总损失函数为目标更新网络参数，完成训练后保存网络模型和参数；

将验证集人脸图像和选择的x轴、y轴归一化坐标，输入整体网络得到预测的深度值Z_v和置信度c_v，对深度值Z_v求均值并利用置信度c_v进行修正，并根据阈值获得最终预测的标签值，与真实的标签值比较，计算虚警率和漏检率，取两者相等时的阈值作为测试判决阈值T；

将测试集人脸图像和选择的x轴、y轴归一化坐标，输入完成训练的网络得到预测的深度值Z_t和置信度c_t，对深度值Z_t求均值并利用置信度c_t进行修正，根据测试判决阈值T获得最终预测的标签值，根据预测的标签值与真实的标签值，计算基准指标。

作为优选的技术方案，所述构建特征提取网络模块，具体包括：

基于DenseNet利用DenseBlock块和TransitionBlock块进行构建，输入分辨率设为H×W×C，通过N个通道输出的卷积层、批量归一化层、最大池化层进行初步特征提取，获得尺寸为

的初始特征图；

通过设有L个DenseLayer层、特征通道数增长率为G、瓶颈层倍率为B的DenseBlock块，再通过设有批量归一化层、卷积层、平均池化层的TransitionBlock进行下采样，再通过卷积层和平均池化层获得最终提取的尺寸为

的特征图。

作为优选的技术方案，所述三维结构重建网络结合位置信息和特征信息的输入分辨率为H′×W′×(C′+2)，输出尺寸为H′×W′×3，取值范围为[0，1]的特征图，采用1×1卷积的计算方式，基于位置信息和对应的特征信息预测三维结构特征，其中，

C′＝(N+G×L)。

作为优选的技术方案，所述倒角损失函数具体表示为：

其中，L_CF表示倒角损失函数，S₁表示真实的三维结构标签，S₂表示修正后的预测三维结构标签，p表示真实的三维结构标签中一个点的三维坐标，p′表示修正后的预测三维结构标签中一个点的三维坐标，|·|表示深度图的总点数，

表示L2距离；

所述Map图二元交叉熵损失具体表示为：

L_MBCE＝-(Zlog(Z″)+(1-Z)log(1-Z″))

其中，L_MBCE表示Map图二元交叉熵损失，Z和Z″分别表示真实的深度图和修正后的预测深度图；

所述二元交叉熵损失表示为：

L_BCE＝-(ylog(y′)+(1-y)log(1-y′)

其中，L_BCE表示二元交叉熵损失，y和y′分别表示真实的标签值和预测的标签值。

作为优选的技术方案，所述结合真实的深度值对预测的深度图进行修正，具体表示为：

Z″＝c×Z′+(1-c)×Z

所述置信度损失表示为：

L_C＝-log(c)

其中，Z、Z′和Z″分别表示真实深度图、预测深度图和修正后的预测深度图，L_C表示置信度损失，c表示置信度。

作为优选的技术方案，所述对人脸图像进行实时数据增强，具体步骤包括：在水平方向进行随机的翻转，随机调整对色度、亮度、饱和度和对比度。

作为优选的技术方案，所述对深度值Z_v求均值并利用置信度c_v进行修正，具体采用无先验知识的修正，具体表示为：

其中，z′和z″分别表示预测深度图均值和修正后的预测深度图均值，c表示置信度。

为了达到上述第二目的，本发明采用以下技术方案：

一种基于三维结构监督和置信度加权的人脸欺骗检测***，包括：数据预处理模块、特征提取网络构建模块、三维结构重建网络构建模块、三维结构监督构建模块、二元监督构建模块、置信度预测构建模块、训练模块、验证模块和检测模块；

所述数据预处理模块用于设定人脸输入分辨率，获取人脸区域图像，如果用于训练模块，需要进一步提取特征图；

所述特征提取网络构建模块用于构建特征提取网络模块，输入数据增强后的人脸图像，输出特征图；

所述三维结构重建网络构建模块用于构建三维结构重建网络，选择x轴、y轴归一化坐标，将所述特征图拼接后输入三维结构重建网络，获得预测三维结构标签，根据x轴、y轴归一化坐标选择并拼接所述深度图的对应深度值，获得真实的三维结构标签；

所述三维结构监督构建模块用于构建倒角损失函数衡量真实的三维结构标签和预测三维结构标签的差异，采用Map图二元交叉熵损失衡量预测的深度图与真实的深度图的差异，完成三维结构监督模块的构建；

所述二元监督构建模块用于将预测的深度图展平后输入全连接层、sigmoid激活层，并利用二元交叉熵损失进行监督，获得预测的真实人脸概率，完成二元监督模块的构建；

所述置信度预测构建模块用于将所述预测的深度图展平后输入全连接层、sigmoid激活层，并采用置信度损失进行监督，获得预测的置信度，结合真实的深度值对预测的深度图进行修正，获得修正后的预测深度图和修正后的预测三维结构标签，完成置信度预测模块的构建；

所述训练模块用于对人脸图像进行实时数据增强，依次输入到特征提取网络模块、三维结构重建模块、三维结构监督模块、二元监督模块和置信度预测模块，以最小化总损失函数为目标更新网络参数，完成训练后保存网络模型和参数；

所述验证模块用于将验证集人脸图像和选择的x轴、y轴归一化坐标，输入整体网络得到预测的深度值Z_v和置信度c_v，对深度值Z_v求均值并利用置信度c_v进行修正，并根据阈值获得最终预测的标签值，与真实的标签值比较，计算虚警率和漏检率，取两者相等时的阈值作为测试判决阈值T；

所述测试模块用于将测试集人脸图像和选择的x轴、y轴归一化坐标，输入完成训练的网络得到预测的深度值Z_t和置信度c_t，对深度值Z_t求均值并利用置信度c_t进行修正，根据测试判决阈值T获得最终预测的标签值，根据预测的标签值与真实的标签值，计算基准指标。

为了达到上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现如上述基于三维结构监督和置信度加权的人脸欺骗检测方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述基于三维结构监督和置信度加权的人脸欺骗检测方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明利用特征提取网络提取的特征与位置信息重建三维结构，在引入了深度信息的同时结合对应的位置信息进行监督，可以引导网络关注真假脸之间三维结构信息的显著差异，提高泛化性能。

(2)本发明在训练过程中通过预测的置信度为预测的判别分数提供先验知识，然后在测试过程中根据置信度与阈值对预测结果进行加权修正以进一步进行判断，可以有效减少偏差，提高泛化性能。

(3)本发明基于三维结构监督和置信度加权进行人脸欺骗检测，可以根据实际需要选择不同的特征提取网络和三维结构重建网络等，具有良好的可扩展性和实用性。

(4)本发明所设计的特征提取网络和三维结构重建网络属于轻量级网络，有效解决了神经网络资源占用高而不适合部署在移动端的问题，在保证性能的同时降低对内存和计算资源的要求低，提高运行速度，适合在手机、嵌入式终端等部署，有很强的实用性。

附图说明

图1为本实施例基于三维结构监督和置信度加权的人脸欺骗检测方法的整体框架示意图；

图2为本实施例数据预处理部分的流程步骤示意图；

图3为实施例模型训练与验证部分的流程步骤示意图；

图4为本实施例特征提取网络的结构示意图；

图5为本实施例模型测试部分的流程步骤示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例利用Replay-Attack、CASIA-MFSD和MSU_MFSD活体检测数据集进行训练和测试为例，详细介绍本实施例实施过程。其中Replay-Attack数据集包含1300个视频，利用分辨率为320×240像素的MacBook摄像头，采集了来自50个测试者的真实人脸以及据此生成的欺骗人脸，并按照3:3:4划分为训练集、验证集和测试集；CASIA-MFSD数据集包含600个视频，利用分辨率分别为640×480像素、480×640像素、1920×1080像素的三种摄像机，采集了来自50个测试者的真实人脸以及据此生成的欺骗人脸，并按照2:3划分为训练集和测试集；MSU_MFSD数据集包括280个视频，采集了来自35个测试者的真实人脸以及据此生成的欺骗人脸，其中15人用于训练集，20人用于测试集。由于CASIA-MFSD和MSU_MFSD活体检测数据集不包含验证集，对于这两个数据集，本实施例利用对应的测试集作为验证集进行阈值确定。本实施例在Linux***上进行，主要基于深度学习框架Pytorch1.6.0利用Python3.7来实现，所用显卡为GTX1080Ti，CUDA版本为10.1.105，cudnn版本7.6.4。

如图1所示，本实施例提供一种基于三维结构监督和置信度加权的人脸欺骗检测方法，包括数据预处理、模型训练与验证和模型测试三个部分；

如图2所示，数据预处理部分具体步骤如下：

确定人脸欺骗检测***的输入分辨率：H×W×C，其中，H、W和C分别指人脸图像的高度、宽度和色彩通道数；

获取人脸区域图像：获取训练集或验证集或测试集数据中所有视频并进行分帧，利用MTCNN人脸识别算法检测人脸区域获取人脸位置框，裁剪人脸区域，并利用Lanczos插值算法将分辨率调整为H×W×C，获得输入网络的人脸图像；在本实施例中，H＝224，W＝224，C＝3；

提取深度图：对于训练集数据部分，利用PRNet提取人脸深度图，将深度值归一化到[0，1]，然后利用估计的深度图作为real真实样本的深度图，而利用1减去估计的深度图作为attack攻击样本的深度图。

如图3所示，模型训练与验证部分的具体步骤如下：

构建特征提取网络模块：构建特征提取网络，特征提取网络结构参考DenseNet利用DenseBlock块和TransitionBlock块进行构建，其输入分辨率为H×W×C，其后通过步长为2、卷积核为7×7、N个通道输出的卷积层、批量归一化层、最大池化层进行初步特征提取，获得尺寸为

的初始特征图；随后通过一个包括L个DenseLayer层、特征通道数增长率为G、瓶颈层倍率为B的DenseBlock块，每个DenseLayer由两层卷积层构成，其一是步长为1、卷积核为1×1、G×B个通道输出的卷积层，其二是步长为1、卷积核为3×3、G个通道输出的卷积层，每个卷积层前有一个批量归一化层。DenseLayer的主要特点是第一个DenseLayer的输入是前面获得的尺寸为

的初始特征图，后面第l个(2≤l≤L)DenseLayer的输入由初始特征图和前l-1个DenseLayer输出拼接而成，所以第l个(2≤l≤L)DenseLayer的输入尺寸为

输出尺寸为

最终DenseBlock块输出的尺寸为

随后通过由批量归一化层、步长为1、卷积核为1×1、

个通道输出的卷积层、平均池化层构成TransitionBlock，进行下采样，再通过步长为1、卷积核为3×3、N+K×L个通道输出的卷积层和平均池化层获得最终提取的尺寸为

的特征图，即

C′＝(N+G×L)。

如图4所示，其输入分辨率为224×224×3的数据增强后的人脸图像，其后通过步长为2、卷积核为7×7、64个通道输出的卷积层、批量归一化层、最大池化层进行初步特征提取，获得尺寸为56×56×64的初始特征图；随后通过一个包含6个DenseLayer层、特征通道数增长率为32、瓶颈层倍率为4的DenseBlock块；每个DenseLayer由两层卷积层构成，其一是步长为1、卷积核为1×1、128个通道输出的卷积层，其二是步长为1、卷积核为3×3、32个通道输出的卷积层，而且每个卷积层前有一个批量归一化层。DenseLayer的主要特点是第一个DenseLayer的输入是前面获得的尺寸为56×56×64的初始特征图，后面第l个(2≤l≤6)的DenseLayer的输入由初始特征图和前l-1个DenseLayer输出拼接而成，所以第l个(2≤l≤6)的DenseLayer的输入尺寸为56×56×(64+32×(l-1))，输出尺寸为56×56×32，最终DenseBlock块输出的尺寸为56×56×256；随后通过由批量归一化层，步长为1、卷积核为1×1、128个通道输出的卷积层，平均池化层构成TransitionBlock，进行下采样，再通过步长为1、卷积核为3×3、256个通道输出的卷积层，连接平均池化层获得最终提取尺寸为14×14×256的特征图，即W′＝14,H′＝14,C′＝256，全部卷积层都利用ReLU作为激活函数。

构建三维结构重建模块：

三维结构重建网络可以利用任意可以结合位置信息和特征信息的输入分辨率为H′×W′×(C′+2)，输出尺寸为H′×W′×3，取值为[0，1]的特征图的网络结构；一种可选的网络结构由卷积核数分别为

和3，步长为1的两层1×1卷积构成，利用1×1卷积的计算方式将位置信息和对应的特征信息预测三维结构特征；

选取x轴、y轴归一化坐标(X,Y)，对于real样本和attack样本，分别随机选择深度值大于d和小于1-d的W′×H′(本实施例取14×14＝196)个坐标，其尺寸为14×14×2，并与第一步中获得的特征图进行拼接，获得尺寸为14×14×258的拼接特征图，将其输入由卷积核数分别为129和3，步长为1、两层1×1卷积构成三维结构重建网络，获得预测的尺寸为14×14×3的三维结构标签(X′,Y′,Z′)，分别表示预测的x轴坐标、y轴坐标和深度值；同时根据(X,Y)选择并拼接数据预处理中提取深度图的对应深度值，获得真实的三维结构标签(X,Y,Z)；

构建三维结构监督模块、二元监督模块及其损失函数：

构建倒角损失函数L_CF，用于衡量真实的三维结构标签和预测三维结构标签的差异，同时利用Map图二元交叉熵损失L_MBCE用于衡量预测的深度图Z′与真实的深度Z的差异，完成三维结构监督模块的构建；随后将预测的深度Z′先展平，再送入神经元输出数目为1的全连接层、sigmoid激活层，并利用二元交叉熵损失L_BCE进行监督，获得预测的真实人脸概率，完成二元监督模块的构建。在本实施例中，L_CF倒角损失函数的定义为：

其中，S₁表示真实的三维结构标签，S₂表示修正后的预测三维结构标签，在三维结构监督模块，使用倒角损失和交叉熵损失进行监督时，标签使用的是修正后的标签，p表示真实的三维结构标签中一个点的三维坐标，p′表示修正后的预测三维结构标签中一个点的三维坐标，|·|表示深度图的总点数，

表示L2距离。

Map图二元交叉熵损失L_MBCE定义为：

L_MBCE＝-(Zlog(Z″)+(1-Z)log(1-Z″))

其中Z和Z″分别表示真实的深度图和修正后的预测深度图；

二元交叉熵损失L_BCE的定义为：

L_BCE＝-(ylog(y′)+(1-y)log(1-y′)

其中y和y′分别表示真实的标签和预测的标签。

构建置信度预测模块及其损失函数：

将上述预测的深度Z′先展平，再送入神经元输出数目为1的全连接层、sigmoid激活层，并利用置信度损失L_C进行监督，获得预测的置信度c，用于衡量预测深度图的可信度，并利用c结合真实的深度值Z对预测的深度值Z′进行修正得到修正后的深度值Z″，为预测值增加先验知识，完成置信度预测模块的构建；在本实施例中，置信度修正方法定义为：

Z″＝c×Z′+(1-c)×Z

其中Z、Z′和Z″分别表示真实深度图、预测深度图和修正后的预测深度图；

置信度损失L_C用于对预测的置信度进行惩罚使得置信度不会过高，置信度损失L_C的定义为：

L_C＝-log(c)

组建整体的训练网络：

对人脸图像进行实时数据增强，包括在水平方向进行随机的翻转，随机调整对色度、亮度、饱和度、对比度，然后依次输入到构建的特征提取模块、三维结构重建模块、三维结构监督模块、二元监督模块和置信度预测模块，构建整体的训练网络，并利用He参数初始化方法对网络参数进行初始化；

构建网络的总损失函数：将训练网络的损失函数设置为：

L＝λ₁L_CF+λ₂L_MBCE+λ₃L_BCE+λ₄L_C

其中λ₁、λ₂、λ₃、λ₄分别表示4个损失的占比权重，在本实施例中，其取值分别为0.1,1,1和0.5。

模型训练：

设置模型优化算法，本实施例采用Adam算法进行参数优化，设置学***滑参数β₁＝0.50,二阶平滑参数β₂＝0.999，ε＝10^-8，然后以最小化总损失函数为目标更新网络参数，完成训练后保存网络模型和参数；

利用验证集确定阈值：

利用验证集的人脸图像和均匀选取的14×14个x轴、y轴归一化坐标输入整体网络得到预测的深度值Z_v和置信度c_v，对Z_v求均值获得z′并利用置信度c_v进行无先验知识的修正，在阈值的取值范围(0,1)中进行等间隔搜索，并根据阈值获得最终预测的标签值，然后与真实的标签值比较，计算虚警率和漏检率，取两者相等时的阈值作为后续模型测试判决阈值，记为T。在本实施例中，无先验知识的修正方法定义如下：

如图5所示，加载训练好的模型和权重，构建测试网络；

利用测试集的人脸图像和均匀选取的14×14个x轴、y轴归一化坐标输入测试网络得到预测的深度值Z_t和置信度c_t，对Z_t求均值并利用c_t进行无先验知识修正，作为最终预测分数，并根据模型训练与验证部分利用验证集确定的阈值T获得最终预测的标签值，具体是如果最终预测分数大于阈值T，则推断标签值为1，表示是真实人脸样本，反之如果最终预测分数小于于阈值T，则推断标签值为0，表示是欺骗人脸样本；根据预测的标签值与真实的标签值，计算各种基准指标。

在本实施例中，人脸欺骗检测算法性能评价指标采用假阳率(False PositiveRate，FPR)、假阴率(False Negative Rate，FNR)、等错误率(Equal Error Rate，EER)以及半错误率(Half Total Error Rate，HTER)。如下表1所示，采用混淆矩阵对上述指标做详细说明：

表1混淆矩阵

标签/预测	预测为真	预测为假
			标签为真	TP	FN
标签为假	FP	TN

假阳率(FPR)指非活体人脸判断成活体人脸数占标签为非活体人脸数的比率：

假阴率(FNR)指活体人脸判断成非活体人脸数占标签为活体人脸数的比率:

等错误率(EER)是FPR与FNR相等时的错误率；

半错误率(HTER)为FPR与FR的均值:

为了证明本发明的有效性以及检验该方法的泛化性能，本实施例在Replay-Attack、CASIA-MFSD、MSU-MFSD数据库上分别进行库内实验与跨库实验。库内实验结果和跨库实验结果分别如下表2和表3所示：

表2库内实验结果表

表3跨库实验结果表

由上表2可知，本发明的半总错误率和等错误率在库内部分为0，最高不超过1％，具有优秀的欺骗检测性能；由上表3可知，跨库检测的半总错误率低于目前公开的方法，明显改善泛化性能。

此外，如下表4所示，展示了本发明中用到基于三维结构监督和置信度加权的整体网络结构和目前较为流行的深度学习网络框架在参数量、计算量和模型大小方面的对比(输入尺寸为224×224×3)，本发明参数量最少、模型最轻量，在计算量方面除采用可分离卷积的Mobilenet外比其他模型计算量都小，证明了本发明的网络结构的轻量性。

表4参数量和计算量对比表

网络结构	参数量(Params)	浮点运算次数(FLOPs)	模型大小(Memory)
				VGG-11	132.86M	7.62G	506.84MB
ResNet-18	11.68M	2.38G	44.67MB
				Inception3	27.16M	2.85G	103.94MB
DenseNet-121	7.98M	2.88G	31.02MB
				MobileNetV2	3.50M	0.32G	13.60MB
本发明	0.71M	1.52G	2.75MB

实施例3

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现实施例1的基于人脸面部向量时空域特征的换脸视频检测方法。

实施例4

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于人脸面部向量时空域特征的换脸视频检测方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于三维结构监督和置信度加权的人脸欺骗检测方法，其特征在于，包括下述步骤：

构建三维结构重建网络，选择x轴、y轴归一化坐标，将所述特征图拼接后输入三维结构重建网络，获得预测三维结构标签(X′,Y′,Z′)，分别表示预测的x轴坐标、y轴坐标和深度值，获得预测的深度图；

根据x轴、y轴归一化坐标选择并拼接所述深度图的对应深度值，获得真实的三维结构标签(X,Y,Z)，分别表示真实的x轴坐标、y轴坐标和深度值，所述深度图为真实的深度图；

构建倒角损失函数衡量真实的三维结构标签和预测三维结构标签的差异，采用Map图二元交叉熵损失衡量预测的深度图与真实的深度图的差异，完成三维结构监督模块的构建；将预测的深度图展平后输入全连接层、sigmoid激活层，并利用二元交叉熵损失进行监督，获得预测的真实人脸概率，完成二元监督模块的构建；

总损失函数表示为：

L＝λ₁L_CF+λ₂L_MBCE+λ₃L_BCE+λ₄L_C

其中，L_CF表示倒角损失函数，L_MBCE表示Map图二元交叉熵损失，L_BCE表示二元交叉熵损失，L_C表示置信度损失，λ₁、λ₂、λ₃、λ₄分别表示4个损失的占比权重；

将验证集人脸图像和选择的x轴、y轴归一化坐标，输入整体网络得到预测的深度值Z_v和置信度c_v，对深度值Z_v求均值，并利用置信度c_v对深度值Z_v的均值进行无先验知识修正，在阈值的取值范围(0,1)中进行等间隔搜索，并根据阈值获得预测的标签值，与真实的标签值比较，计算虚警率和漏检率，取两者相等时的阈值作为测试判决阈值T；

将测试集人脸图像和选择的x轴、y轴归一化坐标，输入完成训练的网络得到预测的深度值Z_t和置信度c_t，对深度值Z_t求均值，并利用置信度c_t对深度值Z_t的均值进行无先验知识修正，作为最终预测分数，根据测试判决阈值T获得最终预测的标签值，如果最终预测分数大于阈值T，则推断最终预测的标签值为1，表示是真实人脸样本，反之如果最终预测分数小于阈值T，则推断最终预测的标签值为0，表示是欺骗人脸样本，根据最终预测的标签值与真实的标签值，计算基准指标。

2.根据权利要求1所述的基于三维结构监督和置信度加权的人脸欺骗检测方法，其特征在于，所述构建特征提取网络模块，具体包括：

基于DenseNet利用DenseBlock块和TransitionBlock块进行构建，分辨率设为H×W×C，其中，H、W和C分别指人脸图像的高度、宽度和色彩通道数，通过N个通道输出的卷积层、批量归一化层、最大池化层进行初步特征提取，获得尺寸为

的初始特征图；

的特征图。

3.根据权利要求2所述的基于三维结构监督和置信度加权的人脸欺骗检测方法，其特征在于，所述三维结构重建网络结合位置信息和特征信息的输入分辨率为H′×W′×(C′+2)，输出尺寸为H′×W′×3，取值范围为[0，1]的特征图，采用1×1卷积的计算方式，基于位置信息和对应的特征信息预测三维结构特征，其中，

C′＝(N+G×L)。

4.根据权利要求1所述的基于三维结构监督和置信度加权的人脸欺骗检测方法，其特征在于，所述倒角损失函数具体表示为：

表示L2距离；

所述Map图二元交叉熵损失具体表示为：

L_MBCE＝-(Zlog(Z″)+(1-Z)log(1-Z″))

所述二元交叉熵损失表示为：

L_BCE＝-(ylog(y′)+(1-y)log(1-y′))

5.根据权利要求1所述的基于三维结构监督和置信度加权的人脸欺骗检测方法，其特征在于，所述结合真实的深度值对预测的深度图进行修正，具体表示为：

Z″＝c×Z′+(1-c)×Z

所述置信度损失表示为：

L_C＝-log(c)

6.根据权利要求1所述的基于三维结构监督和置信度加权的人脸欺骗检测方法，其特征在于，所述对人脸图像进行实时数据增强，具体步骤包括：在水平方向进行随机的翻转，随机调整对色度、亮度、饱和度和对比度。

7.根据权利要求1所述的基于三维结构监督和置信度加权的人脸欺骗检测方法，其特征在于，所述对深度值Z_v求均值，并利用置信度c_v对深度值Z_v的均值进行无先验知识修正，具体表示为：

8.一种基于三维结构监督和置信度加权的人脸欺骗检测***，其特征在于，包括：数据预处理模块、特征提取网络构建模块、三维结构重建网络构建模块、三维结构监督构建模块、二元监督构建模块、置信度预测构建模块、训练模块、验证模块和测试模块；

所述三维结构重建网络构建模块用于构建三维结构重建网络，选择x轴、y轴归一化坐标，将所述特征图拼接后输入三维结构重建网络，获得预测三维结构标签(X′,Y′,Z′)，分别表示预测的x轴坐标、y轴坐标和深度值，获得预测的深度图，根据x轴、y轴归一化坐标选择并拼接所述深度图的对应深度值，获得真实的三维结构标签(X,Y,Z)，分别表示真实的x轴坐标、y轴坐标和深度值，所述深度图为真实的深度图；

总损失函数表示为：

L＝λ₁L_CF+λ₂L_MBCE+λ₃L_BCE+λ₄L_C

所述验证模块用于将验证集人脸图像和选择的x轴、y轴归一化坐标，输入整体网络得到预测的深度值Z_v和置信度c_v，对深度值Z_v求均值，并利用置信度c_v对深度值Z_v的均值进行无先验知识修正，在阈值的取值范围(0,1)中进行等间隔搜索，并根据阈值获得预测的标签值，与真实的标签值比较，计算虚警率和漏检率，取两者相等时的阈值作为测试判决阈值T；

所述测试模块用于将测试集人脸图像和选择的x轴、y轴归一化坐标，输入完成训练的网络得到预测的深度值Z_t和置信度c_t，对深度值Z_t求均值，并利用置信度c_t对深度值Z_t的均值进行无先验知识修正，作为最终预测分数，根据测试判决阈值T获得最终预测的标签值，如果最终预测分数大于阈值T，则推断最终预测的标签值为1，表示是真实人脸样本，反之如果最终预测分数小于阈值T，则推断最终预测的标签值为0，表示是欺骗人脸样本，根据最终预测的标签值与真实的标签值，计算基准指标。

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7任一项所述基于三维结构监督和置信度加权的人脸欺骗检测方法。

10.一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-7任一项所述基于三维结构监督和置信度加权的人脸欺骗检测方法。