CN115331315A

CN115331315A - 活体检测方法和活体检测装置

Info

Publication number: CN115331315A
Application number: CN202210794149.6A
Authority: CN
Inventors: 韦美丽; 张建良; 刘金胜; 苑京立
Original assignee: Beijing Theto Optical Science And Technology Development Co ltd
Current assignee: Jiaxing Uphoton Optoelectronics Technology Co Ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-11-11

Abstract

一种活体检测方法和活体检测装置，该方法包括：获取针对待测对象拍摄的图像，对图像进行人脸检测，得到人脸图像；对人脸图像进行预处理，得到待测人脸图像；利用训练好的活体检测模型对待测人脸图像进行活体检测并输出活体检测结果；其中，活体检测模型基于可扩展高效目标检测网络对待测人脸图像进行特征提取得到多尺度特征，并基于多尺度特征得到待测对象的活体检测结果，可扩展高效目标检测网络包括主干网络、特征网络和预测网络，主干网络、特征网络和预测网络能够统一缩放。该方法和装置基于活体检测模型对待测人脸图像提取多尺度特征来表征真人或者假体信息，使得该活体检测模型能够分析人脸区域的细致纹理信息，从而提高活体检测能力。

Description

活体检测方法和活体检测装置

技术领域

本申请涉及人脸识别技术领域，更具体地涉及一种活体检测方法和活体检测装置。

背景技术

人脸识别作为一种常用的身份验证技术，已经越来越多地应用于安防、金融等领域，如智能门锁、刷脸支付等场景。然而，在对安全级别有较高要求的应用领域中，能够防范如照片、面具或者3D头模等攻击，仍是人脸识别技术的研究重点。因此，活体检测技术作为能够区分真人与假体的关键技术，其准确性及抗攻击能力是衡量人脸识别效果的关键指标之一。

目前主流的活体检测方案主要可分为配合式和静默式两种。配合式活体检测是通过用户根据提示做出相应的动作，如眨眼、张嘴、摇头等。配合式活体检测用户体验感、检测的隐蔽性较差。静默式活体检测是在用户无感的情况下直接进行检测。在静默式活体检测中，采集的图像信息包括普通RGB图像、基于红外成像原理生成的近红外图像、通过3D结构光或飞行时间传感器(TOF)获取3D人脸信息生成的深度信息图像等。但是，目前的静默式活体检测方法中，如果仅采集一种模态的图像信息，诸如普通RGB图像，则只能解决简单的图片攻击；如果想应对更复杂的攻击，则需要诸如RGB图像、近红外图像等至少两种甚至更多模态的图像信息，从而需要复杂的硬件采集环境及复杂的多模态算法。

发明内容

为了解决上述问题而提出了本申请的活体检测方案，该活体检测方案仅采集一种模态的图像信息即可应对照片、面具、3D头模等多种攻击。此处对本申请的活体检测方案进行概括，更多细节在后文中描述。

根据本申请一方面，提供了一种用于活体检测方法，所述方法包括：获取针对待测对象拍摄的图像，对所述图像进行人脸检测，得到人脸图像；对所述人脸图像进行预处理，得到待测人脸图像；利用训练好的活体检测模型对所述待测人脸图像进行活体检测并输出活体检测结果；其中，所述活体检测模型基于可扩展高效目标检测网络对所述待测人脸图像进行特征提取得到多尺度特征，并基于所述多尺度特征得到所述待测对象的活体检测结果，所述可扩展高效目标检测网络包括主干网络、特征网络和预测网络，所述主干网络、特征网络和预测网络能够统一缩放。

在本申请的实施例中，所述活体检测模型基于可扩展高效目标检测网络对所述待测人脸图像进行特征提取得到多尺度特征，并基于所述多尺度特征得到所述待测对象的活体检测结果，包括：基于主干网络对所述待测人脸图像进行特征提取，得到多个第一特征图，并从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图；基于特征网络对每个所述可用特征图进行特征提取，得到多个尺度的第二特征图；基于激活函数对所述多个尺度的第二特征图进行处理，得到多个尺度的第三特征图；对所述多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量；基于所述特征向量得到分类结果，并基于所述分类结果输出针对所述待测对象的活体检测结果。

在本申请的实施例中，所述活体检测模型在训练过程中基于样本图像的高频信息进行自监督学习。

在本申请的实施例中，所述活体检测模型的训练过程包括：将经过所述预处理的样本图像输入到主干网络，由所述主干网络输出多个第一特征图；从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图；将所述可用特征图输入到特征网络，由所述特征网络输出多个尺度的第二特征图；基于激活函数对所述多个尺度的第二特征图进行处理，得到多个尺度的第三特征图；对所述多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量，并将所述特征向量输入到损失函数，得到第一损失；将所述多个尺度的第三特征图输入到傅里叶生成网络，由所述傅里叶生成网络输出所述第三特征图的傅里叶频谱，并基于所述第三特征图的傅里叶频谱和所述样本图像的傅里叶频谱确定第二损失；基于所述第一损失和所述第二损失得到最终损失，将所述最终损失回传以优化所述活体检测模型，直到训练完成。

在本申请的实施例中，所述从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图，包括：从所述多个第一特征图中获取最后输出的n个不同尺度的特征图作为可用特征图，其中n为大于1的自然数。

在本申请的实施例中，所述n等于3。

在本申请的实施例中，所述待处理人脸图像的图像尺寸为3*512*512，所述可用特征图的图像尺寸包括40*64*64、112*32*32、320*16*16，所述第二特征图的图像尺寸包括64*16*16、64*8*8、64*4*4。

在本申请的实施例中，所述样本图像包括不同条件下拍摄得到的真人活体样本图像和非活体样本图像，所述不同条件包括以下中的至少一项：不同光照条件、不同人脸角度、不同距离。

在本申请的实施例中，所述预处理包括以下中的至少一项：将图像中的人脸区域扩展为方形区域；对所述图像进行裁剪；对所述图像进行缩放；对所述图像进行归一化。

在本申请的实施例中，所述方法还包括：在得到所述待测人脸图像后，对所述待测人脸图像进行质量评估，将通过质量评估的待测人脸图像输入至所述训练好的活体检测模型以进行活体检测。

在本申请的实施例中，对所述待测人脸图像进行质量评估，包括：确定所述待测人脸图像的亮度是否在预设范围内；其中，当所述人脸图像的亮度在所述预设范围内时，确定所述待测人脸图像通过质量评估。

在本申请的实施例中，所述针对待测对象拍摄的图像为彩色图像。

在本申请的实施例中，所述可扩展高效目标检测网络为Efficient Det网络。

在本申请的实施例中，所述主干网络为Efficient Net网络。

在本申请的实施例中，所述特征网络为加权双向特征金字塔网络。

根据本申请另一方面，还提供了一种活体检测装置，所述装置包括：人脸检测模块，用于获取针对待测对象拍摄的图像，对所述图像进行人脸检测，得到人脸图像；预处理模块，用于对所述人脸图像进行预处理，得到待测人脸图像；活体检测模块，用于利用训练好的活体检测模型对所述待测人脸图像进行活体检测并输出活体检测结果；其中，所述活体检测模型基于可扩展高效目标检测网络对所述待测人脸图像进行特征提取得到多尺度特征，并基于所述多尺度特征得到所述待测对象的活体检测结果，所述可扩展高效目标检测网络包括主干网络、特征网络和预测网络，所述主干网络、特征网络和预测网络能够统一缩放。

在本申请的实施例中，所述活体检测模型在训练过程中基于所述待测人脸图像的高频信息进行自监督学习。

在本申请的实施例中，所述活体检测模型的训练过程包括：将经过所述预处理的样本图像输入到主干网络，由所述主干网络输出多个第一特征图；从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图；将所述可用特征图输入到特征网络，由所述特征网络输出多个尺度的第二特征图；基于激活函数对所述多个尺度的第二特征图进行处理，得到多个尺度的第三特征图；对所述多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量，并将所述特征向量输入到损失函数，得到第一损失；将所述多个尺度的第三特征图输入到傅里叶生成网络，由所述傅里叶生成网络输出所述第三特征图的傅里叶频谱，并基于所述第三特征图的傅里叶频谱和所述待测人脸图像的傅里叶频谱确定第二损失；基于所述第一损失和所述第二损失得到最终损失，将所述最终损失回传以优化所述活体检测模型，直到训练完成。

在本申请的实施例中，所述装置还包括质量评估模块，用于对所述待测人脸图像进行质量评估，将通过质量评估的待测人脸图像输入至所述活体检测模块以进行活体检测。

在本申请的实施例中，所述主干网络为Efficient Net网络。

根据本申请再一方面，还提供了一种活体检测装置，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行上述活体检测方法。

根据本申请又一方面，还提供了一种存储介质，所述存储介质上存储有由处理器运行的计算机程序，所述计算机程序在被处理器运行时，使得处理器执行上述活体检测方法。

根据本申请再一方面，还提供了一种计算机程序，所述计算机程序在被处理器运行时，使得处理器执行上述活体检测方法。

根据本申请实施例的活体检测方法和活体检测装置基于活体检测模型对待测人脸图像提取多尺度特征来表征真人或者假体信息，使得该活体检测模型能够分析人脸区域的细致纹理信息，从而提高活体检测能力，从而能够应对照片、面具、3D头模等多种攻击；此外，由于仅需要采集待测对象的RGB彩色图像这一种图像信息，从而不需要复杂的硬件采集环境，也不需要复杂的多模态算法。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的活体检测方法和活体检测装置的示例电子设备的示意性结构框图。

图2示出根据本申请实施例的活体检测方法的示意性流程图。

图3示出根据本申请实施例的活体检测方法中活体检测模型的操作流程示意图。

图4示出根据本申请实施例的活体检测方法中活体检测模型的训练流程示意图。

图5示出根据本申请一个实施例的活体检测装置的示意性框图。

图6示出根据本申请另一个实施例的活体检测装置的示意性框图。

具体实施方式

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用***的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

在上述计算机视觉技术中，活体检测技术作为能够区分真人与假体的关键技术，其准确性及抗攻击能力是衡量人脸识别效果的关键指标之一。目前的活体检测方案主要可分为配合式和静默式两种。其中静默式活体检测中，如果仅采集一种模态的图像信息，诸如普通RGB图像，则只能解决简单的图片攻击；如果想应对更复杂的攻击，诸如面具或3D头模攻击，则需要诸如RGB图像、近红外图像等至少两种甚至更多模态的图像信息，从而需要复杂的硬件采集环境及复杂的多模态算法。

基于此，本申请提供了一种新的活体检测方案，其能够在采集一种模态的图像信息的情况下，应对照片、面具、3D头模等多种攻击，且不需要复杂的硬件采集环境及复杂的多模态算法。下面结合附图来描述。

首先，参照图1来描述用于实现本发明实施例的活体检测方法和活体检测装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108，这些组件通过总线***110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。此外，所述输入装置106也可以是任何接收信息的接口。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。此外，所述输出装置108也可以是任何其他具备输出功能的设备。

示例性地，用于实现根据本发明实施例的活体检测方法和活体检测装置的示例电子设备可以被实现诸如智能手机、平板电脑、摄像头等终端。

下面，将参考图2描述根据本申请实施例的活体检测方法200。如图2所示，活体检测方法200可以包括如下步骤：

在步骤S210，获取针对待测对象拍摄的图像，对图像进行人脸检测，得到人脸图像。

在步骤S220，对人脸图像进行预处理，得到待测人脸图像。

在步骤S230，利用训练好的活体检测模型对待测人脸图像进行活体检测并输出活体检测结果；其中，活体检测模型基于可扩展高效目标检测网络对待测人脸图像进行特征提取得到多尺度特征，并基于多尺度特征得到待测对象的活体检测结果，可扩展高效目标检测网络包括主干网络、特征网络和预测网络，主干网络、特征网络和预测网络能够统一缩放。

在本申请的实施例中，针对待测对象拍摄的图像可以为RGB彩色图像。对该图像进行人脸检测和预处理后，可以得到待测人脸图像。针对待测人脸图像，利用训练好的包括可扩展高效目标检测网络的活体检测模型对其进行活体检测，该可扩展高效目标检测网络包括能够统一缩放的主干网络、特征网络和预测网络，也即主干网络、特征网络和预测网络的分辨率、深度和宽度是可以同时统一缩放的，这使得该活体检测模型具有较高的检测效率；此外其特征网络可以对待测人脸图像提取多尺度特征来表征真人或者假体信息，使得该活体检测模型能够分析人脸区域的细致纹理信息，从而提高活体检测能力，从而能够应对照片、面具、3D头模等多种攻击；此外，由于仅需要采集待测对象的RGB彩色图像这一种图像信息，从而不需要复杂的硬件采集环境，也不需要复杂的多模态算法。

在本申请的实施例中，步骤S230中的活体检测模型采用的可扩展高效目标检测网络可以为Efficient Det网络，即该活体检测模型可以基于Efficient Det的思想，在很大程度上遵循单阶段检测器范式。选择Efficient Det网络只是示例性的，而非限制性的，根据需要，活体检测模型采用的可扩展高效目标检测网络也可以是其他网络。具体地，其采用图像网络ImageNet预训练的Efficient Net作为主干网络，加权双向特征金字塔网络作为特征网络。特征网络从主干网络中获取三到七级特征，并重复应用自顶向下和自底向上的双向特征的真正融合。这些融合的特征被馈送到预测网络(类和框网络)以分别产生对象类和边界框预测。预测网络的权重在所有级别的特征之间共享。这即为Efficient Det网络的整体架构。总体上，Efficient Det网络采用加权双向特征金字塔网络和一种定制的复合缩放方法，能够提高目标检测的准确性和效率，应用在活体检测中，可以提高活体检测的准确性和效率。更具体地，加权双向特征金字塔网络允许简单快速的多尺度特征融合，从而能够提高活体检测的准确性和效率；复合缩放方法使得主干网络、特征网络和预测网络的分辨率、深度和宽度可以同时统一缩放，能够实现比任何其他已有对象检测和语音分割模型包括更少的参数和实现最高的精度。下面结合图3来描述该活体检测模型的操作流程。

图3示出了根据本申请实施例的活体检测方法中活体检测模型的操作流程300的示意图。如图3所示，流程300可以包括如下步骤：

在步骤S310，基于主干网络对待测人脸图像进行特征提取，得到多个第一特征图，并从多个第一特征图中获取多个不同尺度的特征图作为可用特征图。

在步骤S320，基于特征网络对每个可用特征图进行特征提取，得到多个尺度的第二特征图。

在步骤S330，基于激活函数对多个尺度的第二特征图进行处理，得到多个尺度的第三特征图。

在步骤S340，对多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量。

在步骤S350，基于特征向量得到分类结果，并基于分类结果输出针对待测对象的活体检测结果。

在本申请的实施例中，步骤S310中采用的主干网络可以为卷积神经网络(CNN)主干网络Efficient Net b0。可将待测人脸图像输入至该主干网络中进行卷积提取特征，得到多个特征图，并从中获取多个不同尺度的特征图作为可用特征图，以为后续处理做准备。此处，为了与下文中其他步骤得到的特征图相区分，将该主干网络输出的特征图称为第一特征图，并将从中选取的多个尺度的特征图称为可用特征图。

在本申请的实施例中，从多个第一特征图中获取多个不同尺度的特征图作为可用特征图，可以包括：从多个第一特征图中获取最后输出的n个不同尺度的特征图作为可用特征图，其中n为大于1的自然数。下面结合一个具体的示例来描述。在一个示例中，待处理人脸图像的图像尺寸为3*512*512，将其输入至前文所述的主干网络，得到多个第一特征图，可从中选取例如最后输出的三个不同尺度的特征图作为可用特征图(即在该示例中n＝3)。示例性地，三个可用特征图的图像尺寸可以分别为：40*64*64、112*32*32、320*16*16。

在得到可用特征图后，可如步骤S320所述的，基于特征网络，更具体是加权双向特征金字塔网络对可用特征图进行提取，得到多个尺度的特征图。此处，为了与其他步骤所得的特征图相区分，将该加权双向特征金字塔网络输出的特征图称为第二特征图。在上述的示例中，当三个可用特征图的图像尺寸分别为40*64*64、112*32*32和320*16*16时，相应地，在一个示例中，这些可用特征图经加权双向特征金字塔网络处理后可输出三个第二特征图，它们的图像尺寸可以分别为：64*16*16、64*8*8、64*4*4。

在得到多个尺度的第二特征图后，可基于激活函数对多个尺度的第二特征图进行处理，得到多个尺度的第三特征图，如步骤S330所述的。此处，为了与其他步骤所得的特征图相区分，将经过激活函数处理输出的特征图称为第三特征图。在一个示例中，步骤S330采用的激活函数可以为Relu函数。在上述的示例中，当三个第二特征图的图像尺寸分别为64*16*16、64*8*8和64*4*4时，将它们经过激活函数处理后，可以得到三个同样尺寸的特征图，但其相对于第二特征图，引入了线性特征。

在得到多个尺度的第三特征图后，对其进行全局平均汇聚处理，得到特征向量，如步骤S340所述的。全局平均汇聚处理可以将特征图变为1*N特征向量，基于该特征向量可得到活体检测的分类结果，即活体或者非活体，如步骤S350所述的。

以上详细描述了活体检测模型对待测人脸图像的处理过程。在本申请的实施例中，在得到待测人脸图像之前，需要对人脸图像进行预处理。示例性地，预处理可以包括以下中的至少一项：将图像中的人脸区域扩展为方形区域；对图像进行裁剪；对图像进行缩放；对图像进行归一化。这些预处理可以使得得到的待测人脸图像满足活体检测模型的需求。其中，将图像中的人脸区域扩展为方形区域可以避免畸变的产生。

此外，在本申请的进一步的实施例中，在得到待测人脸图像之后，可以对待测人脸图像进行质量评估，将通过质量评估的待测人脸图像输入至训练好的活体检测模型以进行活体检测。在该实施例中，先对待测人脸图像进行质量评估，再将通过质量评估(即质量评估结果为合格)的待测人脸图像输入至活体检测模型进行活体检测，这有助于提高活体检测结果的精度。

在一个示例中，对待测人脸图像进行质量评估，可以包括：确定待测人脸图像的亮度是否在预设范围内；其中，当人脸图像的亮度在预设范围内时，确定待测人脸图像通过质量评估。在该实施例中，质量评估包括对图像亮度的检测，当图像亮度在适当范围内时，可以更好地对图像进行特征提取，提取到更细致的纹理特征，因此通过亮度检测来进行质量评估有助于提高活体检测结果的精度。在其他示例中，对待测人脸图像的质量评估也可以包括其他评估，诸如人脸角度、人脸距离等等。总体地，经过质量评估的待测人脸图像输入到活体检测模型，得到的活体检测结果更为准备。

下面描述根据本申请实施例的活体检测方法中活体检测模型的训练方法。在本申请的实施例中，该活体检测模型在训练过程中基于样本图像的高频信息进行自监督学***和垂直方向延伸，而活体的高频信息从图像的中心向外呈发散状。因此，活体检测模型在训练过程中基于样本图像的高频信息进行自监督学习有助于活体检测模型进一步提高活体检测的准确性。

下面结合图4来描述根据本申请实施例的活体检测方法中活体检测模型的训练流程。图4示出了根据本申请实施例的活体检测方法中活体检测模型的训练流程400的示意图。如图4所示，活体检测模型的训练流程400可以包括如下步骤：

在步骤S410，将经过预处理的样本图像输入到主干网络，由主干网络输出多个第一特征图。

在步骤S420，从多个第一特征图中获取多个不同尺度的特征图作为可用特征图。

在步骤S430，将可用特征图输入到特征网络，由特征网络输出多个尺度的第二特征图。

在步骤S440，基于激活函数对多个尺度的第二特征图进行处理，得到多个尺度的第三特征图。

在步骤S450，对多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量，并将特征向量输入到损失函数，得到第一损失。

在步骤S460，将多个尺度的第三特征图输入到傅里叶生成网络，由傅里叶生成网络输出第三特征图的傅里叶频谱，并基于第三特征图的傅里叶频谱和样本图像的傅里叶频谱确定第二损失。

在步骤S470，基于第一损失和第二损失得到最终损失，将最终损失回传以优化活体检测模型，直到训练完成。

在本申请的实施例中，活体检测模型的训练流程400与前文所述的活体检测模型的操作流程300大体上类似，不同之处在于：活体检测模型的操作流程300的输入图像为待测人脸图像，而活体检测模型的训练流程400的输入图像为样本图像；此外，活体检测模型的操作流程300在得到特征向量后即可得到活体检测的分类结果，而活体检测模型的训练流程400在得到特征向量后需要进行损失函数计算，以通过计算得到的损失来优化活体检测模型，直到训练完成。

在本申请的实施例中，用于优化活体检测模型的损失包括第一损失和第二损失，它们是两个分支，是通过对激活函数处理后得到的多个尺度的第三特征图各自进行不同处理得到的。其中，第一损失是对多个尺度的第三特征图进行全局平均汇聚处理得到特征向量，并将特征向量输入到损失函数而得到的，该损失函数例如为交叉熵损失函数，该损失代表了预测结果与真实结果之间的差值。第二损失是通过将多个尺度的第三特征图输入到傅里叶生成网络，由傅里叶生成网络输出第三特征图的傅里叶频谱，并基于第三特征图的傅里叶频谱和样本图像的傅里叶频谱的比较来确定的。

例如，当样本图像中的人脸为活体时，对该样本图像进行一系列处理得到第三特征图后，将该第三特征图的傅里叶频谱与该样本图像自身真实的傅里叶频谱进行比较，来确定预测损失，此处的预测结果是活体时，损失较小。类似地，当样本图像中的人脸为非活体时，对该样本图像进行一系列处理得到第三特征图后，将该第三特征图的傅里叶频谱与该样本图像自身真实的傅里叶频谱进行比较，来确定预测损失，此处的预测结果是非活体时，损失较小。

在得到第一损失和第二损失之后，可以将两者之和作为最终损失进行回传以优化活体检测模型，直到训练完成。

在本申请的实施例中，步骤S410中的样本图像可以包括不同条件下拍摄得到的真人活体样本图像和非活体样本图像，其中不同条件可以包括以下中的至少一项：不同光照条件、不同人脸角度、不同距离。基于上述条件下拍摄得到的样本图像能够实现训练数据的增强，从而提高训练好的模型的鲁棒性。

基于训练好的活体检测模型，可对待测人脸图像进行活体检测，如前文所述的。

以上示例性地描述了根据本申请实施例的活体检测方法。基于上面的描述，根据本申请实施例的活体检测方法基于包括可扩展高效目标检测网络的活体检测模型进行活体检测，由于其包括能够统一缩放的主干网络、特征网络和预测网络，使得该活体检测模型具有较高的检测效率，此外其特征网络可以对待测人脸图像提取多尺度特征来表征真人或者假体信息，使得该活体检测模型能够分析人脸区域的细致纹理信息，从而提高活体检测能力，从而能够应对照片、面具、3D头模等多种攻击；此外，由于仅需要采集待测对象的RGB彩色图像这一种图像信息，从而不需要复杂的硬件采集环境，也不需要复杂的多模态算法。进一步地，根据本申请实施例的活体检测方法中采用的活体检测模型在训练过程中基于样本图像的高频信息进行自监督学习，有助于活体检测模型进一步提高活体检测的准确性。

下面结合图5到图6描述根据本申请另一方面提供的活体检测装置，其可以用于执行前文所述的根据本申请实施例的活体检测方法。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的活体检测装置的结构及其具体操作，为了简洁，此处不再赘述具体的细节，仅描述一些主要操作。

图5示出了根据本申请一个实施例的活体检测装置500的示意性框图。如图5所示，活体检测装置500包括人脸检测模块510、预处理模块520和活体检测模块530。其中，人脸检测模块510用于获取针对待测对象拍摄的图像，对图像进行人脸检测，得到人脸图像；预处理模块520用于对人脸图像进行预处理，得到待测人脸图像；活体检测模块530用于利用训练好的活体检测模型对待测人脸图像进行活体检测并输出活体检测结果；其中，活体检测模型基于可扩展高效目标检测网络对待测人脸图像进行特征提取得到多尺度特征，并基于多尺度特征得到待测对象的活体检测结果，可扩展高效目标检测网络包括主干网络、特征网络和预测网络，主干网络、特征网络和预测网络能够统一缩放。

在本申请的实施例中，针对待测对象拍摄的图像可以为RGB彩色图像。通过人脸检测模块510对该图像进行人脸检测得到人脸图像，并通过预处理模块520对人脸图像进行预处理，得到待测人脸图像。针对待测人脸图像，活体检测模块530利用训练好的包括可扩展高效目标检测网络的活体检测模型对其进行活体检测，该可扩展高效目标检测网络包括能够统一缩放的主干网络、特征网络和预测网络，也即主干网络、特征网络和预测网络的分辨率、深度和宽度是可以同时统一缩放的，这使得该活体检测模型具有较高的检测效率；此外其特征网络可以对待测人脸图像提取多尺度特征来表征真人或者假体信息，使得该活体检测模型能够分析人脸区域的细致纹理信息，从而提高活体检测能力，从而能够应对照片、面具、3D头模等多种攻击；此外，由于仅需要采集待测对象的RGB彩色图像这一种图像信息，从而不需要复杂的硬件采集环境，也不需要复杂的多模态算法。

在本申请的实施例中，活体检测模型采用的可扩展高效目标检测网络可以为Efficient Det网络，即该活体检测模型可以基于Efficient Det的思想，在很大程度上遵循单阶段检测器范式。具体地，其采用图像网络ImageNet预训练的Efficient Net作为主干网络，加权双向特征金字塔网络作为特征网络。特征网络从主干网络中获取三到七级特征，并重复应用自顶向下和自底向上的双向特征的真正融合。这些融合的特征被馈送到预测网络(类和框网络)以分别产生对象类和边界框预测。预测网络的权重在所有级别的特征之间共享。这即为Efficient Det网络的整体架构。总体上，Efficient Det网络采用加权双向特征金字塔网络和一种定制的复合缩放方法，能够提高目标检测的准确性和效率，应用在活体检测中，可以提高活体检测的准确性和效率。更具体地，加权双向特征金字塔网络允许简单快速的多尺度特征融合，从而能够提高活体检测的准确性和效率；复合缩放方法使得主干网络、特征网络和预测网络的分辨率、深度和宽度可以同时统一缩放，能够实现比任何其他已有对象检测和语音分割模型包括更少的参数和实现最高的精度。

在本申请的实施例中，活体检测模型对待测人脸图像进行活体检测的流程可以包括：基于主干网络对待测人脸图像进行特征提取，得到多个第一特征图，并从多个第一特征图中获取多个不同尺度的特征图作为可用特征图；基于特征网络对每个可用特征图进行特征提取，得到多个尺度的第二特征图；基于激活函数对多个尺度的第二特征图进行处理，得到多个尺度的第三特征图；对多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量；基于特征向量得到分类结果，并基于分类结果输出针对待测对象的活体检测结果。

在本申请的实施例中，上述主干网络可以为卷积神经网络(CNN)主干网络Efficient Net b0。活体检测模块530可将待测人脸图像输入至该主干网络中进行卷积提取特征，得到多个特征图，并从中获取多个不同尺度的特征图作为可用特征图，以为后续处理做准备。此处，为了与本文中描述的其他特征图相区分，将该主干网络输出的特征图称为第一特征图，并将从中选取的多个尺度的特征图称为可用特征图。

在得到可用特征图后，基于特征网络，更具体是加权双向特征金字塔网络对可用特征图进行提取，得到多个尺度的特征图。此处，为了与本文中描述的其他特征图相区分，将该加权双向特征金字塔网络输出的特征图称为第二特征图。在上述的示例中，当三个可用特征图的图像尺寸分别为40*64*64、112*32*32和320*16*16时，相应地，在一个示例中，这些可用特征图经加权双向特征金字塔网络处理后可输出三个第二特征图，它们的图像尺寸可以分别为：64*16*16、64*8*8、64*4*4。

在得到多个尺度的第二特征图后，活体检测模块530可基于激活函数对多个尺度的第二特征图进行处理，得到多个尺度的第三特征图。此处，为了与本文描述中的其他特征图相区分，将经过激活函数处理输出的特征图称为第三特征图。在一个示例中，该激活函数可以为Relu函数。在上述的示例中，当三个第二特征图的图像尺寸分别为64*16*16、64*8*8和64*4*4时，将它们经过激活函数处理后，可以得到三个同样尺寸的特征图，但其相对于第二特征图，引入了线性特征。

在得到多个尺度的第三特征图后，活体检测模块530可对其进行全局平均汇聚处理，得到特征向量。全局平均汇聚处理可以将特征图变为1*N特征向量，基于该特征向量可得到活体检测的分类结果，即活体或者非活体。

以上详细描述了活体检测模型对待测人脸图像的处理过程。在本申请的实施例中，预处理模块520在得到待测人脸图像之前，需要对人脸图像进行预处理。示例性地，预处理可以包括以下中的至少一项：将图像中的人脸区域扩展为方形区域；对图像进行裁剪；对图像进行缩放；对图像进行归一化。这些预处理可以使得得到的待测人脸图像满足活体检测模型的需求。其中，将图像中的人脸区域扩展为方形区域可以避免畸变的产生。

此外，在本申请的进一步的实施例中，活体检测装置500还可以包括质量评估模块(未示出)，其可以用于对待测人脸图像进行质量评估，将通过质量评估的待测人脸图像输入至活体检测模块530以进行活体检测。在该实施例中，先由质量评估模块对待测人脸图像进行质量评估，再由活体检测模块530对通过质量评估(即质量评估结果为合格)的待测人脸图像进行活体检测，这有助于提高活体检测结果的精度。

在一个示例中，质量评估模块对待测人脸图像进行质量评估，可以包括：确定待测人脸图像的亮度是否在预设范围内；其中，当人脸图像的亮度在预设范围内时，确定待测人脸图像通过质量评估。在该实施例中，质量评估包括对图像亮度的检测，当图像亮度在适当范围内时，可以更好地对图像进行特征提取，提取到更细致的纹理特征，因此通过亮度检测来进行质量评估有助于提高活体检测结果的精度。在其他示例中，质量评估模块对待测人脸图像的质量评估也可以包括其他评估，诸如人脸角度、人脸距离等等。总体地，经过质量评估的待测人脸图像输入到活体检测模块530，得到的活体检测结果更为准备。

下面描述活体检测模块530采用的活体检测模型的训练方法。在本申请的实施例中，该活体检测模型在训练过程中基于样本图像的高频信息进行自监督学***和垂直方向延伸，而活体的高频信息从图像的中心向外呈发散状。因此，活体检测模型在训练过程中基于样本图像的高频信息进行自监督学习有助于活体检测模型进一步提高活体检测的准确性。

在本申请的实施例中，活体检测模型的训练过程可以包括如下步骤：将经过预处理的样本图像输入到主干网络，由主干网络输出多个第一特征图；从多个第一特征图中获取多个不同尺度的特征图作为可用特征图；将可用特征图输入到特征网络，由特征网络输出多个尺度的第二特征图；在＝基于激活函数对多个尺度的第二特征图进行处理，得到多个尺度的第三特征图；对多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量，并将特征向量输入到损失函数，得到第一损失；将多个尺度的第三特征图输入到傅里叶生成网络，由傅里叶生成网络输出第三特征图的傅里叶频谱，并基于第三特征图的傅里叶频谱和样本图像的傅里叶频谱确定第二损失；基于第一损失和第二损失得到最终损失，将最终损失回传以优化活体检测模型，直到训练完成。

在本申请的实施例中，活体检测模型的训练流程与其操作流程大体上类似，不同之处在于：活体检测模型的操作流程的输入图像为待测人脸图像，而活体检测模型的训练流程的输入图像为样本图像；此外，活体检测模型的操作流程在得到特征向量后即可得到活体检测的分类结果，而活体检测模型的训练流程在得到特征向量后需要进行损失函数计算，以通过计算得到的损失来优化活体检测模型，直到训练完成。

在本申请的实施例中，训练活体检测模型采用的样本图像可以包括不同条件下拍摄得到的真人活体样本图像和非活体样本图像，其中不同条件可以包括以下中的至少一项：不同光照条件、不同人脸角度、不同距离。基于上述条件下拍摄得到的样本图像能够实现训练数据的增强，从而提高训练好的模型的鲁棒性。

基于训练好的活体检测模型，活体检测模块530可对待测人脸图像进行活体检测，如前文所述的。

以上示例性地描述了根据本申请一个实施例的活体检测装置。基于上面的描述，根据本申请实施例的活体检测装置基于包括可扩展高效目标检测网络的活体检测模型进行活体检测，由于其包括能够统一缩放的主干网络、特征网络和预测网络，使得该活体检测模型具有较高的检测效率，此外其特征网络可以活体检测模型对待测人脸图像提取多尺度特征来表征真人或者假体信息，使得该活体检测模型能够分析人脸区域的细致纹理信息，从而提高活体检测能力，从而能够应对照片、面具、3D头模等多种攻击；此外，由于仅需要采集待测对象的RGB彩色图像这一种图像信息，从而不需要复杂的硬件采集环境，也不需要复杂的多模态算法。进一步地，根据本申请实施例的活体检测装置中采用的活体检测模型在训练过程中基于样本图像的高频信息进行自监督学习，有助于活体检测模型进一步提高活体检测的准确性。

图6示出了根据本申请另一个实施例的活体检测装置600的示意性框图。如图6所示，根据本申请实施例的活体检测装置600可以包括存储器610和处理器620，存储器610存储有由处理器620运行的计算机程序，所述计算机程序在被处理器620运行时，使得处理器620执行前文所述的根据本申请实施例的活体检测方法200。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的活体检测装置600的具体操作，为了简洁，此处不再赘述具体的细节。

此外，根据本申请实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本申请实施例的活体检测方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

此外，还提供了一种计算机程序，在该计算机程序被计算机或处理器运行时用于执行本申请实施例的活体检测方法的相应步骤。

基于上面的描述，根据本申请实施例的活体检测方法和活体检测装置基于包括可扩展高效目标检测网络的活体检测模型进行活体检测，由于其包括能够统一缩放的主干网络、特征网络和预测网络，使得该活体检测模型具有较高的检测效率，此外其特征网络可以对待测人脸图像提取多尺度特征来表征真人或者假体信息，使得该活体检测模型能够分析人脸区域的细致纹理信息，从而提高活体检测能力，从而能够应对照片、面具、3D头模等多种攻击；此外，由于仅需要采集待测对象的RGB彩色图像这一种图像信息，从而不需要复杂的硬件采集环境，也不需要复杂的多模态算法。进一步地，根据本申请实施例的活体检测方法和活体检测装置中采用的活体检测模型在训练过程中基于样本图像的高频信息进行自监督学习，有助于活体检测模型进一步提高活体检测的准确性。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种活体检测方法，其特征在于，所述方法包括：

获取针对待测对象拍摄的图像，对所述图像进行人脸检测，得到人脸图像；

对所述人脸图像进行预处理，得到待测人脸图像；

利用训练好的活体检测模型对所述待测人脸图像进行活体检测并输出活体检测结果；

其中，所述活体检测模型基于可扩展高效目标检测网络对所述待测人脸图像进行特征提取得到多尺度特征，并基于所述多尺度特征得到所述待测对象的活体检测结果，所述可扩展高效目标检测网络包括主干网络、特征网络和预测网络，所述主干网络、特征网络和预测网络能够统一缩放。

2.根据权利要求1所述的方法，其特征在于，所述活体检测模型基于可扩展高效目标检测网络对所述待测人脸图像进行特征提取得到多尺度特征，并基于所述多尺度特征得到所述待测对象的活体检测结果，包括：

基于所述主干网络对所述待测人脸图像进行特征提取，得到多个第一特征图，并从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图；

基于所述特征网络对每个所述可用特征图进行特征提取，得到多个尺度的第二特征图；

基于激活函数对所述多个尺度的第二特征图进行处理，得到多个尺度的第三特征图；

对所述多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量；

基于所述特征向量得到分类结果，并基于所述分类结果输出针对所述待测对象的活体检测结果。

3.根据权利要求1所述的方法，其特征在于，所述活体检测模型在训练过程中基于样本图像的高频信息进行自监督学习。

4.根据权利要求3所述的方法，其特征在于，所述活体检测模型的训练过程包括：

将经过所述预处理的样本图像输入到所述主干网络，由所述主干网络输出多个第一特征图；

从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图；

将所述可用特征图输入到所述特征网络，由所述特征网络输出多个尺度的第二特征图；

对所述多个尺度的第三特征图进行全局平均汇聚处理，得到特征向量，并将所述特征向量输入到损失函数，得到第一损失；

将所述多个尺度的第三特征图输入到傅里叶生成网络，由所述傅里叶生成网络输出所述第三特征图的傅里叶频谱，并基于所述第三特征图的傅里叶频谱和所述样本图像的傅里叶频谱确定第二损失；

基于所述第一损失和所述第二损失得到最终损失，将所述最终损失回传以优化所述活体检测模型，直到训练完成。

5.根据权利要求2或4所述的方法，其特征在于，所述从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图，包括：

从所述多个第一特征图中获取最后输出的n个不同尺度的特征图作为可用特征图，其中n为大于1的自然数。

6.根据权利要求5所述的方法，其特征在于，所述n等于3。

7.根据权利要求6所述的方法，其特征在于，所述待处理人脸图像的图像尺寸为3*512*512，所述可用特征图的图像尺寸包括40*64*64、112*32*32、320*16*16，所述第二特征图的图像尺寸包括64*16*16、64*8*8、64*4*4。

8.根据权利要求4所述的方法，其特征在于，所述样本图像包括不同条件下拍摄得到的真人活体样本图像和非活体样本图像，所述不同条件包括以下中的至少一项：不同光照条件、不同人脸角度、不同距离。

9.根据权利要求1或4所述的方法，其特征在于，所述预处理包括以下中的至少一项：将图像中的人脸区域扩展为方形区域；对所述图像进行裁剪；对所述图像进行缩放；对所述图像进行归一化。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在得到所述待测人脸图像后，对所述待测人脸图像进行质量评估，将通过质量评估的待测人脸图像输入至所述训练好的活体检测模型以进行活体检测。

11.根据权利要求10所述的方法，其特征在于，对所述待测人脸图像进行质量评估，包括：

确定所述待测人脸图像的亮度是否在预设范围内；

其中，当所述人脸图像的亮度在所述预设范围内时，确定所述待测人脸图像通过质量评估。

12.根据权利要求1所述的方法，其特征在于，所述针对待测对象拍摄的图像为彩色图像。

13.根据权利要求1所述的方法，其特征在于，所述可扩展高效目标检测网络为Efficient Det网络。

14.根据权利要求1所述的方法，其特征在于，所述主干网络为Efficient Net网络。

15.根据权利要求1所述的方法，其特征在于，所述特征网络为加权双向特征金字塔网络。

16.一种活体检测装置，其特征在于，所述装置包括：

人脸检测模块，用于获取针对待测对象拍摄的图像，对所述图像进行人脸检测，得到人脸图像；

预处理模块，用于对所述人脸图像进行预处理，得到待测人脸图像；

活体检测模块，用于利用训练好的活体检测模型对所述待测人脸图像进行活体检测并输出活体检测结果；

17.根据权利要求16所述的装置，其特征在于，所述活体检测模型基于可扩展高效目标检测网络对所述待测人脸图像进行特征提取得到多尺度特征，并基于所述多尺度特征得到所述待测对象的活体检测结果，包括：

18.根据权利要求16所述的装置，其特征在于，所述活体检测模型在训练过程中基于所述待测人脸图像的高频信息进行自监督学习。

19.根据权利要求18所述的装置，其特征在于，所述活体检测模型的训练过程包括：

将所述多个尺度的第三特征图输入到傅里叶生成网络，由所述傅里叶生成网络输出所述第三特征图的傅里叶频谱，并基于所述第三特征图的傅里叶频谱和所述待测人脸图像的傅里叶频谱确定第二损失；

20.根据权利要求17或19所述的装置，其特征在于，所述从所述多个第一特征图中获取多个不同尺度的特征图作为可用特征图，包括：

21.根据权利要求19所述的装置，其特征在于，所述样本图像包括不同条件下拍摄得到的真人活体样本图像和非活体样本图像，所述不同条件包括以下中的至少一项：不同光照条件、不同人脸角度、不同距离。

22.根据权利要求16所述的装置，其特征在于，所述装置还包括质量评估模块，用于对所述待测人脸图像进行质量评估，将通过质量评估的待测人脸图像输入至所述活体检测模块以进行活体检测。

23.根据权利要求16所述的装置，其特征在于，所述针对待测对象拍摄的图像为彩色图像。

24.根据权利要求16所述的装置，其特征在于，所述可扩展高效目标检测网络为Efficient Det网络。

25.根据权利要求16所述的装置，其特征在于，所述主干网络为Efficient Net网络。

26.根据权利要求16所述的装置，其特征在于，所述特征网络为加权双向特征金字塔网络。

27.一种活体检测装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如权利要求1-15中的任一项所述的活体检测方法。

28.一种存储介质，其特征在于，所述存储介质上存储有由处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如权利要求1-15中的任一项所述的活体检测方法。

29.一种计算机程序，其特征在于，所述计算机程序在被处理器运行时，使得所述处理器执行如权利要求1-15中的任一项所述的活体检测方法。