CN116129534A

CN116129534A - 一种图像活体检测方法、装置、存储介质及电子设备

Info

Publication number: CN116129534A
Application number: CN202211089114.9A
Authority: CN
Inventors: 曹佳炯; 丁菁汀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-05-16

Abstract

本说明书公开了一种图像活体检测方法、装置、存储介质及电子设备，其中，方法包括：获取针对目标对象的目标彩色图像，基于第一深度模型进行深度估计处理得到每帧目标彩色图像对应的第一深度图像，以及基于第二深度模型进行帧间深度融合处理得到针对目标对象的第二深度图像，再基于第二深度图像以及目标彩色图像对目标对象进行图像活体检测处理。

Description

一种图像活体检测方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像活体检测方法、装置、存储介质及电子设备。

背景技术

近年来，生物识别技术被广泛应用到人们的生产和生活当中。例如刷脸支付，面部门禁，面部考勤以及面部进站等技术都需要依赖生物识别，例如面部考勤、刷脸进站、刷脸支付等生物识别场景下的图像活体检测需求也越来越凸出，图像活体检测需要验证用户是否为真实活体本人操作，需要能够可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，以便于甄别欺诈行为，保障用户权益。

发明内容

本说明书提供了一种图像活体检测方法、装置、存储介质及电子设备，所述技术方案如下：

第一方面，本说明书提供了一种图像活体检测方法，所述方法包括：

获取针对目标对象的至少两帧目标彩色图像；

基于第一深度模型对各所述目标彩色图像进行深度估计处理，得到每帧所述目标彩色图像对应的第一深度图像；

基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像；

基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理。

第二方面，本说明书提供了一种图像活体检测装置，所述装置包括：

图像获取模块，用于获取针对目标对象的至少两帧目标彩色图像；

深度估计模块，用于基于第一深度模型对各所述目标彩色图像进行深度估计处理，得到每帧所述目标彩色图像对应的第一深度图像；

深度融合模块，用于基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像；

活体检测模块，用于基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理。

第三方面，本说明书提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本说明书提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本说明书一些实施例提供的技术方案带来的有益效果至少包括：

在本说明书一个或多个实施例中，电子设备通过基于第一深度模型对多个目标彩色图像深度估计得到第一深度图像，和通过第二深度模型挖掘以及聚焦同一对象的多个第一深度图像之间的帧间深度联系进行深度融合，可以得到较高精度的深度估计所对应的第二深度图像，以此来降低对目标彩色图像采集时的图像精度以及图像质量的检测需求，可抵抗复杂应用环境的检测干扰，可实现基于较低图像精度或较低图像质量的彩色二维图像就可以得到较高精度的第二深度图像，从而可基于较高精度的第二深度图像和目标彩色图像进行图像活体检测，提升了图像活体检测在复杂环境下以及较低性能硬件环境下的检测效果，提高了活体检测效果以及活体检测的鲁棒性。

附图说明

为了更清楚地说明本说明书或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书提供的一种图像活体检测***的场景示意图；

图2是本说明书提供的一种图像活体检测方法的流程示意图；

图3是本说明书提供的另一种图像活体检测方法的流程示意图；

图4是本说明书提供的另一种图像活体检测方法的流程示意图；

图5是本说明书提供的一种图像活体检测装置的结构示意图；

图6是本说明书提供的一种深度估计模块的结构示意图；

图7是本说明书提供的一种深度融合模块的结构示意图；

图8是本说明书提供的另一种图像活体检测装置的结构示意图；

图9是本说明书提供的一种电子设备的结构示意图；

图10是本说明书提供的操作***和用户空间的结构示意图；

图11是图10中安卓操作***的架构图；

图12是图10中IOS操作***的架构图。

具体实施方式

下面将结合本说明书中的附图，对本说明书中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在相关技术中，诸如图像活体检测、交互识别检测等图像活体检测场景下，常结合多模态图像数据实现准确图像活体检测，这类方法通过在摄像头中加入更多的模态，例如在RGB模态基础上，加入NIR以及3D模态，甚至加入热成像模态。增加多种模态后，整个活体检测***的性能将才能明显增强，针对各种不同类型的攻击的防范能力才能更好。但是，这类方法的缺点是整个图像活体检测的成本和对设备要求会明显增加，无法应用到低成本要求以及设备要求不高的场景下；以及，在进行图像活体检测时相关技术手段可能还需要用户在提示下进行摇头、眨眼等高度配合的操作，才能够准确进行图像活体检测，而往往图像活体检测的应用环境不是理想状态，等等；基于此，相关技术中的图像活体检测均存在较大的局限性；

下面结合具体的实施例对本申请进行详细说明。

请参见图1，为本说明书提供的一种图像活体检测***的场景示意图。如图1所示，所述图像活体检测***至少可以包括客户端集群和服务平台100。

所述客户端集群可以包括至少一个客户端，如图1所示，具体包括用户1对应的客户端1、用户2对应的客户端2、…、用户n对应的客户端n，n为大于0的整数。

客户端集群中的各客户端可以是具备通信功能的电子设备，该电子设备包括但不限于：可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的电子设备等。

所述服务平台100可以是单独的服务器设备，例如：机架式、刀片、塔式、或者机柜式的服务器设备，或采用工作站、大型计算机等具备较强计算能力硬件设备；也可以是采用多个服务器组成的服务器集群，所述服务集群中的各服务器可以是以对称方式组成的，其中每台服务器在事务链路中功能等价、地位等价，各服务器均可单独对外提供服务，所述单独提供服务可以理解为无需另外的服务器的辅助。

在本说明书的一个或多个实施例中，服务平台100与客户端集群中的至少一个客户端可建立通信连接，基于该通信连接完成图像活体检测过程中数据的交互，诸如线上目标对象的至少两帧目标彩色图像数据交互，示意性的，客户端可采集目标对象的至少两帧目标彩色图像并发送至服务平台100，由服务平台100执行本说明书涉及的所述图像活体检测方法进行图像活体检测，以得到图像活体检测结果并反馈至客户端；又如，服务平台100可将用于图像活体检测的相关深度模型，如第一深度模型、第二深度模型、第三深度模型下发至若干客户端，以指示客户端执行本说明书本说明书涉及的所述图像活体检测方法进行图像活体检测，以得到图像活体检测结果；又如，服务平台100可从客户端上获取用于相关深度模型训练的训练样本数据，如样本图像等。

需要说明的是，服务平台100与客户端集群中的至少一个客户端通过网络建立通信连接进行交互通信，其中，网络可以是无线网络，也可以是有线网络，无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络，有线网络包括但不限于以太网、通用串行总线(universal serial bus，USB)或控制器局域网络。在说明书一个或多个实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据(如目标压缩包)。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本说明书所提供的图像识别***实施例与一个或多个实施例中的所述图像识别方法属于同一构思，在说明书一个或多个实施例涉及的所述图像识别方法对应的执行主体可以是上述服务平台100；在说明书一个或多个实施例涉及的所述图像识别方法对应的执行主体也可以是客户端，具体基于实际应用环境确定。图像识别***实施例其体现实现过程可详见下述的方法实施例，这里不再赘述。

基于图1所示的场景示意图，下面对本说明书一个或多个实施例提供的图像活体检测方法进行详细介绍。

请参见图2，为本说明书一个或多个实施例提供了一种图像活体检测方法的流程示意图，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的图像活体检测装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。所述图像活体检测装置可以为电子设备。

具体的，该图像活体检测方法包括：

S102：获取针对目标对象的至少两帧目标彩色图像；

在生物识别为人们提供方便的同时，也带来了新的风险挑战。威胁生物识别***安全的最常见的手段为活体攻击，即通过设备屏幕、打印照片等手段尝试绕过图像生物验证的手法。为了检测活体攻击，活体防攻击技术成为了生物识别场景中必备的环节，本说明书一个或多个实施例中的图像活体检测(也正是生物识别场景下重要的一环。

在相关技术中，图像活体检测是在一些身份验证场景确定对象真实生理特征的检测方式，在面部识别应用中，图像活体检测需要验证目标对象是否为真实活体本人操作。图像活体检测需要可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的活体攻击手段，从而帮助用户甄别欺诈行为，保障用户的权益；

在本说明书一个或多个实施例中，图像活体检测任务兼顾低成本实现图像获取同时保证图像活体检测的准确性。在相关技术中，诸如图像活体检测、交互识别检测等图像活体检测场景下，常结合多模态图像数据实现准确图像活体检测，这类方法通过在摄像头中加入更多的模态，例如在RGB模态基础上，加入NIR以及3D模态，甚至加入热成像模态。增加多种模态后，整个活体检测***的性能将会明显增强，针对各种不同类型的攻击的防范能力也会更好。但是，这类方法的缺点是整个图像活体检测的成本和对设备要求会明显增加，存在较大的局限性；通过执行本说明书的图像活体检测方法，可基于至少两帧目标彩色图像来预测或估计各帧目标彩色图像对应的第一深度图像，并结合若干第一深度图像进行深度融合得到第二深度图像，然后基于目标彩色图像以及第二深度图像进行图像活体检测处理。

所述目标彩色图像是基于图像活体检测任务所获取到的针对目标对象的二维彩色图像，如针对目标对象的RGB图像。

示意性的，在实际图像应用场景中，可以基于相应的图像活体检测任务通过诸如RGB摄像头、单目摄像头等采集针对当前待识别或待检测目标对象的至少两帧目标彩色图像，通常目标彩色图像为二维彩色图像。

可选的，获取的所述至少两帧目标彩色图像可以是连续的图像，也可以是在预设时间内(如2s)以目标帧间隔为参考连续采集的至少两帧目标彩色图像。

S104：基于第一深度模型对各所述目标彩色图像进行深度估计处理，得到每帧所述目标彩色图像对应的第一深度图像；

可以理解的，将针对目标对象的多帧目标彩色图像输入至第一深度模型，采用第一深度模型来对目标彩色图像进行深度估计处理，得到每帧目标彩色图像对应的第一深度图像。

在本说明书一个或多个实施例中，预先构建初始第一深度模型并对初始第一深度模型进行深度估计训练，在满足模型结束训练条件后，得到第一深度模型，并可应用到实际图像活体检测任务中，对输入的同一目标对象的连续的多帧目标彩色图像进行深度估计，以得到每个目标彩色图像所对应的第一深度图像。

S106：基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像；

所述第二深度模型在实际图像活体检测场景下用于对同一目标对象的多帧目标彩色图像分别对应的第一深度图像进行帧间深度融合，以得到针对目标对象的第二深度图像，第二深度图像是对同一目标对象进行帧间深度融合后的深度图像；简而言之，第二深度模型的输入为“同一目标对象的多帧目标彩色图像对应的各第一深度图像”，第二深度模型的输出为“针对目标对象的第二深度图像”。

在一种可行的实施方式中，预先可创建用于单帧深度估计的初始第一深度模型以及用于多帧帧间深度融合的初始第二深度模型；获取至少一组图像样本数据，所述图像样本数据包括针对同一样本对象的至少两帧连续的样本图像；

电子设备基于图像样本数据对初始第一深度模型进行深度估计训练和对初始第二深度模型进行帧间深度融合训练，在满足模型结束训练条件后，得到训练后的第一深度模型以及第二深度模型。

可选的，图像样本数据可以是从相关数据库中获取的公开的图像数据，并对同一样本对象的若干图像样本数据分组，组成若干同一样本对象对应的图像样本数据，相关数据库诸如CIFAR-10、CIFAR-100、Tiny ImageNet等中的一种或多种，也可以是实际图像检测任务对于事务场景下所搜集的用户自定义的针对不同样本对象的多组图像样本数据，同一样本对象的一组图像样本数据由多张图像数据构成，通常为针对样本对象的多帧连续的图像样本数据，例如将从互联网中收集的图像数据打上对应的标签而制作完成的图像数据集；

示意性的，多组图像样本数据的获取可以是：利用RGB摄像头，采集用户刷脸阶段的图像样本数据，每个用户采集1s-3s的图像样本数据，每秒约25-30帧；采集的用户可以是覆盖搭配各类年龄、性别等；同时，采集各类图像攻击类型的图像样本数据，如设备屏幕类型的图像样本数据(设备屏幕上显示样本对象)、打印照片类型图像样本数据(打印照片中包含样本对象)、对象模型类型的图像样本数据(对象模型为某样本对象，如人物手办等)，同样采集1-3s的图像，每秒约25-30帧；采集时，多组图像样本数据可覆盖各种图像攻击类型的样本图像；

示意性的，初始第一深度模型以及初始第二深度模型可以是基于机器学习模型构建的，机器学习模型可以包括卷积神经网络(Convolutional Neural Network，CNN)模型，深度神经网络(DeepNeuralNetwork，DNN)模型、循环神经网络(RecurrentNeuralNetworks，RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree，GBDT)模型、逻辑回归(LogisticRegression，LR)模型等机器学习模型中的一种或多种拟合实现，针对初始第一深度模型以及初始第二深度模型的模型训练过程可参考本说明书其他实施例的释义。

S108：基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理。

可以理解的，在基于目标对象的多帧目标彩色图像得到第二深度图像之后，可以基于第二深度图像和目标彩色图像进行图像活体检测处理，以确定目标对象的活体检测类型。

在一种可行的实施方式中，电子设备执行所述基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理，可以是：

电子设备将第二深度图像以及目标彩色图像输入至活体检测模型中，输出针对第二深度图像对应的第一活体概率值以及针对目标彩色图像的第二活体概率值；然后基于第一活体概率值和第二活体概率值确定目标对象的活体检测类型。

可以理解的，可以基于预先训练好的活体检测模型以“第二深度图像以及目标彩色图像”作为模型的输入，输出针对第二深度图像对应的第一活体概率值以及针对目标彩色图像的第二活体概率值。

所述活体概率值可以理解为活体检测模型对相应图像的活体分类概率。

电子设备在得到“输出针对第二深度图像对应的第一活体概率值以及针对目标彩色图像的第二活体概率值”之后，可以基于第一活体概率值和第二活体概率值确定目标活体概率。

可选的，目标活体概率的确定规则可以是：选取第一活体概率值和第二活体概率值中的其一作为目标活体概率，如取第一活体概率值和第二活体概率值中的最大概率值作为目标活体概率；

可选的，目标活体概率的确定规则可以是：针对第二深度图像预先设置第一权重因子以及针对目标彩色图像预先设置第二权重因子，采用加权融合的方式，得到最终的目标活体概率。

示意性的，假设第一活体概率值为p1，第二活体概率值为p2，针对第二深度图像预先设置第一权重因子为a，针对目标彩色图像预先设置第二权重因子为b，则目标活体概率P可采用下述公式计算得到，如下：

P＝p1*a+p2*b

可选的，第一权重因子与第二权重因子为1，如第一权重因子为0.5，第二权重因子为0.5。

可选的，通常目标彩色图像的数目为多个，在进行图像活体检测处理时，可将多个目标彩色图像中的其一纳入参考，也即从多个目标彩色图像中选择其一，基于第二深度图像以及所选取的目标彩色图像对目标对象进行图像活体检测处理；

可选的，通常目标彩色图像的数目为多个，在进行图像活体检测处理时，可将多个目标彩色图像均纳入参考，电子设备将第二深度图像以及所有目标彩色图像输入至活体检测模型中，输出针对第二深度图像对应的第一活体概率值以及各个目标彩色图像的第二活体概率值，然后对各个目标彩色图像的第二活体概率值进行拟合处理得到最优的第二活体概率值。如可以计算所有第二活体概率值的平均值、中位值、最大值、最小值等方式选取最优的第二活体概率值。

进一步的，在得到目标活体概率之后，可以根据预先设置的目标阈值，比对目标活体概率与目标阈值的大小，以确定活体检测结果；

可选的，若所述目标活体概率大于目标阈值，则确定所述目标对象为活体对象类型；

可选的，若所述目标活体概率小于或等于目标阈值，则确定所述目标对象为攻击对象类型。

在本说明书一个或多个实施例中，活体检测模型可以是基于机器学习模型所创建的，活体检测模型可以是基于卷积神经网络(Convolutional Neural Network，CNN)模型，深度神经网络(DeepNeuralNetwork，DNN)模型、循环神经网络(RecurrentNeuralNetworks，RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree，GBDT)模型、逻辑回归(LogisticRegression，LR)模型等模型中的一种或多种拟合实现。

可以理解的，可以预先创建初始活体检测模型，获取大量样本训练图像作为活体检测模型的模型图像训练集，模型图像训练集包括针对同一样本对象对应的深度样本图像和彩色样本图像，然后基于模型图像训练集对初始活体检测模型进行训练，直至满足模型训练结束条件，得到训练好的活体检测模型。

请参见图3，图3是本说明书一个或多个实施例提出的一种图像活体检测方法的另一种实施例的流程示意图。具体的：

S202：创建初始第一深度模型以及初始第二深度模型；

S204：获取至少一组图像样本数据，所述图像样本数据包括针对同一样本对象的至少两帧连续的样本图像；

具体可参考本说明书其他实施例的相关释义，此处不再赘述。

S206：将所述图像样本数据中的各所述样本图像输入初始第一深度模型输出各所述样本图像对应的样本深度估计图；

示意性的，所述初始第一深度模型可以是基于机器学习模型创建的，在一些实施例中，初始第一深度模型对应的模型架构可以是UNET模型架构，基于UNET模型架构的初始第一深度模型可至少包括Encoder(编码器)和Decoder(解码器)两个部分；

进一步的，在模型训练过程中，第一深度模型的输入为单帧样本图像，第一深度模型的输出为样本图像所对应的样本深度估计图，样本深度估计图可以理解为一种包含像素深度信息的深度图。

在一种可行的实施方式中，初始第一深度模型的训练过程可以是：

电子设备预先确定各所述样本图像对应的标签深度图；

在每一轮针对初始第一深度模型的训练过程中：将各样本图像输入初始第一深度模型进行深度估计处理，输出各样本图像分别对应的样本深度估计图；如：在某一轮训练过程中，将针对同一样本对象A的b张样本图像(样本图像通常为二维图像)输入初始第一深度模型进行深度估计处理，由初始第一深度模型分别预测或估计样本图像中每个像素点的像素深度特征，以此来生成样本图像所对应的样本深度估计图。

进一步的，在初始第一深度模型的训练中，预先确定针对各图像样本数据所对应的标签深度图，标签深度图用于初始第一深度模型的反向传播训练过程中，在反向传播训练过程中基于标签深度图和当前初始第一深度模型输出的样本深度估计图采用反向传播的方式对初始第一深度模型的模型参数进行调整。

示意性的，以下对设置样本图像对应的标签深度图进行释义，如下：

在一种可行的实施方式中，电子设备可以预先在获取到图像样本数据对应的若干样本图像之后对样本图像设置标签深度，这样在后续训练过程中可以随之确定各样本图像对应的标签深度图；

可选的，可以基于相关技术中生成样本对象的图像深度的方法针对所有样本对象的图像确定标签深度图，如采用三维对象(如面部对象)重建(如3DMM模型)、三维深度估计技术对所有样本对象对应的样本图像进行三维深度重建，得到的深度图也即样本图像的标签深度图。

可选的，电子设备可以基于图像活体检测任务采集各样本图像之后，结合样本图像采集时的图像样本类型，采用不同深度图设置的方式来确定样本图像对应的标签深度图。

示意性的，在图像活体检测任务对应的活体检测场景下，样本图像的图像样本类型图像样本类型至少可以包括攻击图像类型和活体图像类型，

攻击图像类型的样本图像可以是诸如采用照片、换脸、面具、遮挡以及屏幕翻拍等常见的活体攻击手段所采集的样本图像，这些样本图像较之与在真实活体对象所处环境下所采集的样本图像而言，通常属于攻击图像类型。

活体图像类型可以理解为在真实活体对象所处环境下所采集的样本图像所对应的类型。

进一步的，电子设备在执行所述基于所述图像样本类型设置所述图像样本数据对应的标签深度图，可以是：

电子设备从所有采集的样本图像中：获取所述攻击图像类型对应的第一样本图像，将第一样本图像对应的第一标签深度图的深度像素值设置为目标深度像素值；

示意性的，对于攻击图像类型对应的第一样本图像，可以生成深度像素值全为目标深度像素值的第一标签深度图，如可以生成深度像素值全为0的图像作为深度图，可认为攻击图像类型对应的第一样本图像的深度都为0；

电子设备从所有采集的样本图像中：获取活体图像类型对应的第二样本图像，调用目标图像深度服务确定所述第二样本图像对应的第二标签深度图。

可以理解的，样本图像对应的标签深度图包括第一标签深度图以及第二标签深度图；

可以理解的，基于相关技术中生成样本对象的图像深度的方法针对所有第二样本图像确定第二标签深度图，如采用三维对象(如面部对象)重建(如3DMM模型)、三维深度预测技术对所有样本对象对应的样本图像进行三维深度重建，得到的深度图也即样本图像的标签深度图。

在本说明书一个或多个实施例中，样本图像的标签深度图作为模型训练过程中的监督信号，优化模型训练效果。

S208：基于所述样本深度估计图对所述初始第一深度模型进行深度估计训练，直至所述初始第一深度模型完成训练，得到训练后的第一深度模型；

所述样本深度估计图为初始第一深度模型对样本图像进行深度估计处理后的输出结果。

在每一轮初始第一深度模型的训练过程中，通过确定样本图像对应的标签深度图，将样本图像输入初始第一深度模型进行深度估计处理输出样本图像对应的样本深度估计图，并结合输出的样本深度估计图以及作为监督信号的标签深度图进行反向传播调整初始第一深度模型的模型参数。

进一步的，电子设备在每一初始第一深度模型的训练过程中，基于样本深度估计图和标签深度图采用设置的损失计算函数计算聚焦到像素维度的像素估计损失，基于像素估计损失反向传播调整初始第一深度模型的模型参数，如对模型各层神经元之间连接权重值和/或阈值基于像素估计损失进行反向传播调整。

示意性的，电子设备可以设置针对初始第一深度模型的第一损失计算式，第一损失计算式为初始第一深度模型的损失函数，通过在每一轮模型训练过程中，将样本深度估计图和标签深度图输入至第一损失计算式中，确定像素估计损失，基于像素估计损失来对初始第一深度模型进行模型参数调整，直至初始第一深度模型满足模型结束训练条件，得到训练后的第一深度模型。

可选的，所述第一损失计算式满足以下公式：

其中，所述Loss_A为像素估计损失，为所述样本深度估计图中第i个深度像素点的估计深度值，所述p_i为所述标签深度图中所述第i个深度像素点的标签深度值，所述γ为损失自适应参数，所述i为整数，所述I为所述样本深度估计图的总像素数目。

示意性的，所述样本深度估计图中第i个深度像素点的估计深度值的大小可以表征初始第一深度模型对相应像素点的预测概率值，在一些实施例中，预测概率值的范围在0-1之间。

示意性的，所述γ为损失自适应参数，可以理解为是一种样本损失的调整参数。

在本说明书一个或多个实施例中，第一损失计算式采用上述形式，第一损失计算式计算的像素估计损失聚焦深度图估计的像素维度，较之于相关技术中的距离重建损失而言，上述第一损失计算式得到的像素估计损失可以聚焦乃至感知输入样本图像中较难深度重建的区域，并自适应增加调节其权重，从而在模型训练过程中提升深度估计效果，得到较好的输出也即深度估计图。

S210：将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型输出样本深度融合图；

所述样本深度估计图为初始第一深度模型的输出，在对初始第二深度模型进行深度重建时，需要基于初始第一深度模型累积同一样本对象的若干帧样本图像对应的样本深度估计图，然后再将这些同一样本对象的若干样本深度估计图输入至初始第二深度模型。

可以理解的，在每一轮初始第二深度模型的训练过程中，电子设备将同一样本对象的各样本图像对应的样本深度估计图输入至初始第二深度模型进行深度重建处理，得到样本深度估计图对应的深度图估计特征、所述样本深度估计图对应的样本深度重建图，每一轮训练过程中输出样本深度重建图，并结合输出的样本深度重建图和深度图估计特征来反向传播调整初始第二深度模型的模型参数。

示意性的，深度图估计特征是对每帧样本深度估计图进行深度特征提取后得到，通过对各帧样本深度估计图进行深度特征提取，可以得到各帧样本深度估计图的深度图估计特征。

在本说明书一个或多个实施例中，所述初始第二深度模型可以视作一种帧间关系深度模型或网络，在初始第二深度模型训练过程中通过计算多帧样本图像对应样本深度估计图的特征，然后挖掘多帧深度估计图之间的深度关系，利用模型中间深度重建过程中的帧间关系矩阵进行多帧深度估计图的融合。

S212：基于所述样本深度融合图对所述初始第二深度模型进行帧间深度融合训练，直至所述初始第二深度模型完成训练，得到训练后的第二深度模型。

可以理解的，在每一轮初始第二深度模型的训练过程中，会基于各所述样本深度估计图对应的深度图估计特征进行帧间深度融合以输出样本深度融合图，并基于样本深度重建图和所述样本深度估计图对初始第二深度模型进行模型参数调整。

在一种可行的实施方式中，所述初始第二深度模型模型结构组成至少包括第一深度编码网络、第二深度解码网络以及第三自注意力网络；

示意性的，第一深度编码网络可以用作深度特征编码，如第一深度编码网络可以是ResNet18网络，用于对模型输入提取深度特征；

示意性的，第二深度解码网络可以用做深度重建，在一些实施例中第二深度解码网络可以采用解码器Decoder，第一深度编码网络的输出作为第二深度解码网络的输入，得到重建的深度图，这里主要用于后续网络参数调整。

示意性的，第三自注意力网络是可以理解为基于self-attention的网络模块，在一些实施例中第三自注意力网络可以是non local self-attention网络模块，第三自注意力网络的输入为多帧深度估计图的深度图估计特征，基于输入特征进行帧间关系预测，输出为帧间关系矩阵和参考深度图。

以下对初始第二深度模型的模型训练过程进行释义：

在每一轮针对初始第二深度模型的训练过程中：将同一样本对象的各所述样本图像对应的所述样本深度估计图分别输入至第一深度编码网络，并由第一深度编码网络对每个样本深度估计图提取特征，得到各样本深度估计图对应的深度图估计特征；

示意性的，将同一样本对象的各样本图像对应的样本深度估计图分别输入至初始第二深度模型，由初始第二深度模型的第一深度编码网络对每个样本深度估计图提取特征，依次得到各样本深度估计图对应的深度图估计特征，可以理解为第一深度编码网络(如ResNet18)的输出即为第一深度编码网络，输入即为各样本深度估计图。

进一步的，电子设备控制初始第二深度模型将深度图估计特征输入至第二深度解码网络，得到样本深度估计图对应的样本深度重建图；

示意性的，电子设备控制初始第二深度模型由第二深度解码网络(如Decoder)基于若干深度图估计特征进行深度重建，得到重建后的样本深度估计图对应的样本深度重建图，这里样本深度重建图主要用于后续网络参数调整，可以理解为基于深度重建后的样本深度重建图计算模型损失进行后续网络参数调整。

进一步的，电子设备将各样本深度估计图对应的深度图估计特征输入第三自注意力网络，得到参考深度图和帧间关系矩阵，所述参考深度图为各所述样本深度估计图中的其一；

示意性的，通过控制初始第二深度模型由第三自注意力网络(如non local self-attention网络)基于同一样本对象的各样本深度估计图对应的深度图估计特征挖掘多帧样本图像之间的帧间关系，得到参考深度图和帧间关系矩阵。

示意性的，参考深度图为输入的若干样本深度估计图中的其一，以选取的样本深度估计图作为参考深度图像，挖掘其他样本深度估计图相对于参考深度图像的帧间关系，并以帧间关系矩阵进行表征，帧间关系矩阵假设以w表示，w_n,j中的标号n为帧间关系矩阵的第n行，w_n,j为的标号j表示帧间关系矩阵的第j列。在所述帧间关系矩阵w中所述w_n,j表示融合深度图第j个像素点相对于选取的参考深度图第n个像素点的关系系数，所述融合深度图为所述同一样本对象对应的所有所述样本深度估计图中除所述参考深度图之外的深度图。

另外，n，j可以理解为相应深度图中像素点的标号。

进一步的，电子设备通过初始第二深度模型基于帧间关系矩阵和参考深度图进行帧间深度融合以输出样本深度融合图。

示意性的，在针对初始第二深度模型的训练过程中，通过初始第二深度模型确定帧间关系矩阵和参考深度图之后，帧间关系矩阵反馈以参考深度图像为基准的，融合深度图所对应的权值，通过帧间关系矩阵的参数结合参考深度图像进行加权融合，得到加权融合后的样本深度融合图。

在一种可行的实施方式，所述基于所述帧间关系矩阵和所述参考深度图进行帧间深度融合以输出样本深度融合图，可以是：

基于帧间关系矩阵和参考深度图采用第二帧间融合计算式进行加权融合，得到样本深度融合图；

所述第二帧间融合计算式用于基于帧间关系矩阵和参考深度图实现若干样本图像对应深度图的加权融合，得到样本深度融合图

所述第二帧间融合计算式满足以下公式：

其中，所述depth_multi为所述样本深度融合图，所述N为所述参考深度图的总像素点数目，所述n为整数，所述depth_n为原始深度图的第n个像素点的深度像素值，所述w_n,j中的标号n为帧间关系矩阵的第n行，所述w_n,j为的标号j表示帧间关系矩阵的第j列，在所述帧间关系矩阵中所述w_n,j表示融合深度图第j个像素点相对于所述参考深度图第n个像素点的关系系数，所述融合深度图为所述同一样本对象对应的所有所述样本深度估计图中除所述参考深度图之外的深度图。

示意性的，经上述第二帧间融合计算式，以参考深度图的每个像素点为基准，结合帧间关系矩阵，根据在帧间关系矩阵中所述w_n,j表示融合深度图第j个像素点相对于所述参考深度图第n个像素点的关系系数可得到每个像素点的权重，基于上述第二帧间融合计算式可以得到每个融合后的深度像素点的融合深度值，确定所有融合深度值就可以得到样本深度融合图。

可以理解的，经上述方式在对初始第二深度模型的每一轮模型训练过程可输出样本深度图像，并同时基于样本深度重建图和样本深度估计图对所述初始第二深度模型进行模型参数调整。

在一种可行的实施方式中，所述基于所述样本深度重建图和所述样本深度估计图对所述初始第二深度模型进行模型参数调整，可以是：

电子设备可以将针对同一样本对象的各所述样本深度估计图和所述样本深度重建图输入至第三损失计算式中，确定深度重建损失；然后基于深度重建损失对初始第二深度模型进行模型参数调整，通过反向传播调整初始第二深度模型的模型参数，如对模型各层神经元之间连接权重值和/或阈值基于像素估计损失进行反向传播调整，直至初始第二深度模型满足模型结束训练条件，得到训练后的第二深度模型。

所述第三损失计算式满足以下公式：

其中，Loss B为所述深度重建损失，所述l为整数，所述L为所述同一样本对象对应所述样本深度估计图的总数目，所述I_pred-l为第l张所述样本深度重建图，所述I_GT-l为第l张所述样本深度估计图。

S214：基于图像活体检测任务获取针对目标对象的至少两帧目标彩色图像；

S216：基于第一深度模型对各所述目标彩色图像进行深度估计处理，得到每帧所述目标彩色图像对应的第一深度图像；基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像；基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理。

具体可参见本说明书其他实施例的方法步骤，此处不再赘述。

在本说明书一个或多个实施例中，电子设备通过基于第一深度模型对多个目标彩色图像深度估计得到第一深度图像，和通过第二深度模型挖掘以及聚焦同一对象的多个第一深度图像之间的帧间深度联系进行深度融合，可以得到较高精度的深度估计所对应的第二深度图像，以此来降低对目标彩色图像采集时的图像精度以及图像质量的检测需求，可抵抗复杂应用环境的检测干扰，可实现基于较低图像精度或较低图像质量的彩色二维图像就可以得到较高精度的第二深度图像，从而可基于较高精度的第二深度图像和目标彩色图像进行图像活体检测，提升了图像活体检测在复杂环境下以及较低性能硬件环境下的检测效果，提高了活体检测效果以及活体检测的鲁棒性；以及，在单帧深度估计时引入创新的第一损失计算式聚焦像素估计损失，通过第一损失计算式可以更好关注每张图像较为难以拟合的区域，达到更加好的单帧深度质量；以及，在帧间深度融合时指示初始第二深度模型计算多帧深度估计图像的特征以及挖掘计算多帧之间的关系得到帧间关系矩阵，基于帧间关系矩阵进行多帧深度图的融合，深度融合效果较好，提升了模型输出深度质量，可得到较好深度估计效果的第二深度图。

请参见图4，图4是本说明书一个或多个实施例提出的一种图像活体检测方法的另一种实施例的流程示意图。具体的：

S302：获取针对目标对象的至少两帧目标彩色图像；

S304：基于第一深度模型对各所述目标彩色图像进行深度估计处理，得到每帧所述目标彩色图像对应的第一深度图像；基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像；

S306：基于第三深度模型对所述第二深度图像进行质量强化处理，得到质量强化处理后的第三深度图像；

可以理解的，在实际图像活体检测场景中，根据第一深度模型以及第二深度模型进行深度估计、帧间深度融合后，得到了融合后的第二深度图像，考虑到针对同一对象的多帧彩色图像自身图像质量的限制、模型识别处理的瓶颈等客观因素，存在一定概率融合后的第二深度图像出现局部或小范围像素点深度值不连续，基于此，可在深度融合后的第二深度图像上进行深度质量强化，采用第三深度模型进行深度质量强化优化上述客观因素导致的后续检测干扰，在融合后的深度图像上进一步提升数据质量，可得到较高深度质量的深度估计图，也即第三深度图像，提升后续图像活体检测的准确率以及准确效果。

可以理解的，所述第三深度模型用于对多帧彩色图像对应深度估计图融合后的深度图像进行质量强度，以抵抗客观因素所导致的检测干扰，提升融合后深度图像的质量，第三深度模型的输入为第二深度模型输出端的第二深度图像，第三深度模型的输出为经质量强化处理后的第三深度图像。

在一种可行的实施方式中，通过预先创建初始第三深度模型，获取第二深度模型对应初始第二深度模型的至少一张样本深度融合图，将初始第二深度模型每一轮训练过程中的全部或部分输出的样本深度融合图作为模型训练样本，采用模型训练样本对初始第三深度模型进行质量强化训练，直至初始第三深度模型结束模型训练，得到训练好的第三深度模型。也即执行基于各样本深度融合图对初始第三深度模型进行质量强化训练，得到训练后的第三深度模型的步骤。

在本说明书一个或多个实施例中，初始第三深度模型可以是基于机器学习模型构建的，机器学习模型可以包括卷积神经网络(Convolutional Neural Network，CNN)模型，深度神经网络(DeepNeuralNetwork，DNN)模型、循环神经网络(RecurrentNeuralNetworks，RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree，GBDT)模型、逻辑回归(LogisticRegression，LR)模型等机器学习模型中的一种或多种拟合实现，在初始第三深度模型训练过程中引入误差反向传播算法结合模型损失进行参数优化，提高机器学习模型的处理效果。

示意性的，初始第三深度模型可以采用基于机器学习模型构建的UNET模型结构。

可选的，所述基于各所述样本深度融合图对所述初始第三深度模型进行质量强化训练，得到训练后的第三深度模型，可以是：

电子设备在每一轮针对初始第三深度模型的模型训练过程中，电子可以获取样本深度融合图对应的深度图强化标签；

在一些实施例中，深度图像强化标签可以是将针对样本对象的样本图像对应的标签深度图，样本深度融合图基于若干同一样本对象的多帧样本图像生成，标签深度图可以是这些多帧样本图像中的其一。例如，可以选取初始第二深度模型中参考深度图对应样本图像的标签深度图，可以理解的，参考深度图通常是多帧样本图像所对应的样本深度融合图中的其一，则可以选取初始第二深度模型中参考深度图对应样本图像的标签深度图。针对初始第三深度模型而言，深度图像强化标签作为初始第三深度模型模型处理阶段的的强度优化目标。

电子设备对初始第三深度模型进行模型训练：先对各所述样本深度融合图进行像素扰动处理，得到像素扰动后的所述样本深度融合图；电子设备将各所述样本深度融合图分别输入初始第三深度模型进行质量强化处理，输出所述样本深度融合图对应的样本强化深度图，并基于所述样本强化深度图和所述深度图强化标签对所述初始第三深度模型进行模型参数调整，直至所述初始第三深度模型完成训练，得到训练后的第三深度模型；

可以理解的，先对所述同一样本对象的各所述样本图像对应的所述样本深度估计图进行像素扰动处理，得到像素扰动后的各所述样本深度估计图；示意性的，对样本深度估计图像进行像素扰动可以在训练过程中提升深度模型的深度重建以及深度融合效果，模拟真实环境下的攻击干扰，并在模型训练阶段由于需要对像素扰动后的样本深度估计图进行重建，以在训练完成后使得模型具有较好的深度质量强化能力。

可选的，像素扰动处理可以是采用相关技术中像素扰动算法对样本深度估计图进行像素扰动处理，例如可以使用差分进化方式扰乱样本深度估计图中的少数像素点的深度值，(如1024个像素中只扰乱若干个像素)。

示意性的，所述基于所述样本强化深度图和所述深度图强化标签对所述初始第三深度模型进行模型参数调整，可以是：

在每一轮初始第三深度模型的训练过程中：初始第三深度网络输出样本强化深度图之后，将样本强化深度图和深度图强化标签输入至第四损失计算式中，确定质量强化损失；基于所述质量强化损失对初始第三深度模型进行模型参数调整；

所述第四损失计算式满足以下公式：

其中，所述Loss C为所述质量强化损失，所述I_re为所述样本强化深度图，所述I_GT为所述深度图强化标签。

示意性的，在每一轮：初始第三深度网络输出样本强化深度图之后，根据样本强化深度图和深度图强化标签计算质量强化损失，然后基于质量强化损失对初始第三深度模型进行模型参数调整，通过反向传播调整初始第三深度模型的模型参数，如对模型各层神经元之间连接权重值和/或阈值基于像素估计损失进行反向传播调整，直至初始第三深度模型满足模型结束训练条件，得到训练后的第三深度模型。

可以理解的，在训练生成第三深度模型之后，即可在实际应用阶段，在得到针对目标对象的第二深度图像之后，将第二深度图像输入至第三深度模型中进行质量强化处理，得到质量强化处理后的第三深度图像。

S308：将所述第三深度图像作为所述第二深度图像，执行基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理的步骤。

可以理解的，电子设备在得到质量强化处理后的第三深度图像之后，电子设备可以可以将第三深度图像作为第二深度图像，执行基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理的步骤，具体可参考本说明书其他实施例的方法步骤，此处不再赘述。

在本说明书一个或多个实施例中，电子设备通过基于第一深度模型对多个目标彩色图像深度估计得到第一深度图像，和通过第二深度模型挖掘以及聚焦同一对象的多个第一深度图像之间的帧间深度联系进行深度融合，可以得到较高精度的深度估计所对应的第二深度图像，以此来降低对目标彩色图像采集时的图像精度以及图像质量的检测需求，可抵抗复杂应用环境的检测干扰，可实现基于较低图像精度或较低图像质量的彩色二维图像就可以得到较高精度的第二深度图像，从而可基于较高精度的第二深度图像和目标彩色图像进行图像活体检测，提升了图像活体检测在复杂环境下以及较低性能硬件环境下的检测效果，提高了活体检测效果以及活体检测的鲁棒性；以及，在帧间深度融合后引入第三深度模型进行帧率强化，可在融合后的深度估计图像上进一步提升数据质量，有效抵抗环境干扰，提升活体检测的稳定性和准确性。

下面将结合图5，对本说明书提供的图像活体检测装置进行详细介绍。需要说明的是，图5所示的图像活体检测装置，用于执行本申请图1～图4所示实施例的方法，为了便于说明，仅示出了与本说明书相关的部分，具体技术细节未揭示的，请参照本申请图1～图4所示的实施例。

请参见图5，其示出本说明书的图像活体检测装置的结构示意图。该图像活体检测装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例，该图像活体检测装置1包括图像获取模块11、深度估计模块12、深度融合模块13和活体检测模块14，具体用于：

图像获取模块11，用于基于图像活体检测任务获取针对目标对象的至少两帧目标彩色图像；

深度估计模块12，用于基于第一深度模型对各所述目标彩色图像进行深度估计处理，得到每帧所述目标彩色图像对应的第一深度图像；

深度融合模块13，用于基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像；

活体检测模块14，用于基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理。

可选的，如图8所示，所述装置1，包括：

模型训练模块15，用于创建初始第一深度模型以及初始第二深度模型；

所述模型训练模块15，用于获取至少一组图像样本数据，所述图像样本数据包括针对同一样本对象的至少两帧连续的样本图像；

所述模型训练模块15，用于基于所述图像样本数据指示所述深度估计模块12对初始第一深度模型进行深度估计训练和指示所述深度融合模块13对初始第二深度模型进行帧间深度融合训练，得到训练后的第一深度模型以及第二深度模型。

可选的，所述深度估计模块12，用于将所述图像样本数据中的各所述样本图像输入初始第一深度模型输出各所述样本图像对应的样本深度估计图，并基于所述样本深度估计图对所述初始第一深度模型进行深度估计训练，直至所述初始第一深度模型完成训练，得到训练后的第一深度模型；

所述深度融合模块13，用于将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型输出样本深度融合图，并基于所述样本深度融合图对所述初始第二深度模型进行帧间深度融合训练，直至所述初始第二深度模型完成训练，得到训练后的第二深度模型。

可选的，如图6所示，所述深度估计模块12，包括：

深度重建单元121，用于确定各所述样本图像对应的标签深度图；将各所述样本图像输入初始第一深度模型进行深度估计处理，输出各所述样本图像对应的样本深度估计图；

参数调整单元122，用于基于所述和所述标签深度图确定像素估计损失，基于所述像素估计损失对所述初始第一深度图进行模型参数调整。

可选的，所述参数调整单元122，用于：

将所述样本深度估计图和所述标签深度图输入至第一损失计算式中，确定像素估计损失；

所述第一损失计算式满足以下公式：

可选的，所述模型训练模块15，用于：

基于图像活体检测任务采集各样本图像，确定所述样本图像的图像样本类型；

基于所述图像样本类型设置所述样本图像对应的标签深度图。

可选的，所述图像样本类型包括攻击图像类型和活体图像类型，所述模型训练模块15，用于：

获取所述攻击图像类型对应的第一样本图像，将所述第一样本图像对应的第一标签深度图的深度像素值设置为目标深度像素值；

获取所述活体图像类型对应的第二样本图像，调用目标图像深度服务确定所述第二样本图像对应的第二标签深度图。

可选的，如图7所示，所述深度融合模块13，包括：

深度重建单元131，用于将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型进行深度重建处理，得到所述样本深度估计图对应的深度图估计特征、所述样本深度估计图对应的样本深度重建图；

参数调整单元132，用于基于各所述样本深度估计图对应的深度图估计特征进行帧间深度融合输出样本深度融合图，并基于所述样本深度重建图和所述样本深度估计图对所述初始第二深度模型进行模型参数调整。

可选的，所述初始第二深度模型至少包括第一深度编码网络、第二深度解码网络以及第三自注意力网络，

所述深度重建单元131，用于：将所述同一样本对象的各所述样本图像对应的所述样本深度估计图分别输入至所述第一深度编码网络，得到各所述样本深度估计图对应的深度图估计特征；将所述深度图估计特征输入至所述第二深度解码网络，得到所述样本深度估计图对应的样本深度重建图；

所述参数调整单元132，用于将各所述样本深度估计图对应的深度图估计特征输入第三自注意力网络，得到参考深度图和帧间关系矩阵，所述参考深度图为各所述样本深度估计图中的其一；

基于所述帧间关系矩阵和所述参考深度图进行帧间深度融合以输出样本深度融合图。

可选的，所述参数调整单元132，用于：基于所述帧间关系矩阵和所述参考深度图采用第二帧间融合计算式进行加权融合，得到样本深度融合图；

所述第二帧间融合计算式满足以下公式：

可选的，所述参数调整单元132，用于：将针对所述同一样本对象的各所述样本深度估计图和所述样本深度重建图输入至第三损失计算式中，确定深度重建损失；

基于所述深度重建损失对所述初始第二深度模型进行模型参数调整；

所述第三损失计算式满足以下公式：

可选的，所述装置1还用于：基于第三深度模型对所述第二深度图像进行质量强化处理，得到质量强化处理后的第三深度图像；

所述活体检测模块14，还用于：

将所述第三深度图像作为所述第二深度图像，执行基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理的步骤。

可选的，所述装置1还用于：

创建初始第三深度模型；

获取所述第二深度模型对应初始第二深度模型的至少一张样本深度融合图；

基于各所述样本深度融合图对所述初始第三深度模型进行质量强化训练，得到训练后的第三深度模型。

可选的，所述装置1还用于：获取所述样本深度融合图对应的深度图强化标签；

对各所述样本深度融合图进行像素扰动处理，得到像素扰动后的所述样本深度融合图；

将各所述样本深度融合图分别输入初始第三深度模型进行质量强化处理，输出所述样本深度融合图对应的样本强化深度图，并基于所述样本强化深度图和所述深度图强化标签对所述初始第三深度模型进行模型参数调整，直至所述初始第三深度模型完成训练，得到训练后的第三深度模型。

可选的，所述装置1还用于：将所述样本强化深度图和所述深度图强化标签输入至第四损失计算式中，确定质量强化损失；

基于所述质量强化损失对所述初始第三深度模型进行模型参数调整；

所述第四损失计算式满足以下公式：

可选的，所述活体检测模块14，用于：

将所述第二深度图像以及所述目标彩色图像输入至活体检测模型中，输出针对所述第二深度图像对应的第一活体概率值以及针对所述目标彩色图像的第二活体概率值；

基于所述第一活体概率值和所述第二活体概率值确定所述目标对象的活体检测类型。

可选的，所述活体检测模块14，用于：

基于所述第一活体概率值和所述第二活体概率值确定目标活体概率；

若所述目标活体概率大于目标阈值，则确定所述目标对象为活体对象类型；

若所述目标活体概率小于或等于目标阈值，则确定所述目标对象为攻击对象类型。

需要说明的是，上述实施例提供的图像活体检测装置在执行图像活体检测方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像活体检测装置与图像活体检测方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本说明书序号仅仅为了描述，不代表实施例的优劣。

本说明书还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1～图4所示实施例的所述图像活体检测方法，具体执行过程可以参见图1～图4所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1～图4所示实施例的所述图像活体检测方法，具体执行过程可以参见图1～图4所示实施例的具体说明，在此不进行赘述。

请参考图9，其示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中心处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作***可以是安卓(Android)***，包括基于Android***深度开发的***、苹果公司开发的IOS***，包括基于IOS***深度开发的***或其它***。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据，等。

参见图10所示，存储器120可分为操作***空间和用户空间，操作***即运行于操作***空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作***针对不同第三方应用程序为其分配相应的***资源。然而，同一第三方应用程序中不同应用场景对***资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作***与第三方应用程序之间相互独立，操作***往往不能及时感知第三方应用程序当前的应用场景，导致操作***无法根据第三方应用程序的具体应用场景进行针对性的***资源适配。

为了使操作***能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作***之间的数据通信，使得操作***能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的***资源适配。

以操作***为Android***为例，存储器120中存储的程序和数据如图11所示，存储器120中可存储有Linux内核层320、***运行时库层340、应用框架层360和应用层380，其中，Linux内核层320、***运行库层340和应用框架层360属于操作***空间，应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。***运行库层340通过一些C/C++库来为Android***提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在***运行时库层340中还提供有安卓运行时库(Android runtime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序，这些应用程序可以是操作***自带的原生应用程序，比如联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的第三方应用程序，比如游戏类应用程序、即时通信程序、相片美化程序等。

以操作***为IOS***为例，存储器120中存储的程序和数据如图9所示，IOS***包括：核心操作***层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作***层420包括了操作***内核、驱动程序以及底层程序框架，这些底层程序框架提供更接近硬件的功能，以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的***服务和/或程序框架，比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口，如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架，可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface，UI)框架、用户界面UIKit框架、地图框架等等。

在图12所示出的框架中，与大部分应用程序有关的框架包括但不限于：核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型，为所有应用程序提供最基本的***服务，和UI无关。而UIKit框架提供的类是基础的UI类库，用于创建基于触摸的用户界面，iOS应用程序可以基于UIKit框架来提供UI，所以它提供了应用程序的基础架构，用于构建用户界面，绘图、处理和用户交互事件，响应手势等等。

其中，在IOS***中实现第三方应用程序与操作***数据通信的方式以及原理可参考Android***，本申请在此不再赘述。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏，该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本说明书对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本说明书中，各步骤的执行主体可以是上文介绍的电子设备。可选地，各步骤的执行主体为电子设备的操作***。操作***可以是安卓***，也可以是IOS***，或者其它操作***，本说明书对此不作限定。

本说明书的电子设备，其上还可以安装有显示设备，显示设备可以是各种能实现显示功能的设备，例如：阴极射线管显示器(cathode ray tubedisplay，简称CR)、发光二极管显示器(light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(liquidcrystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用电子设备101上的显示设备，来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

在图9所示的电子设备中，其中电子设备可以是一种终端，处理器110可以用于调用存储器120中存储的应用程序，并具体执行以下操作：

获取针对目标对象的至少两帧目标彩色图像；

在一个实施例中，所述处理器110在执行所述图像活体检测方法之前，还执行以下操作：

创建初始第一深度模型以及初始第二深度模型；

获取至少一组图像样本数据，所述图像样本数据包括针对同一样本对象的至少两帧连续的样本图像；

基于所述图像样本数据对初始第一深度模型进行深度估计训练和对初始第二深度模型进行帧间深度融合训练，得到训练后的第一深度模型以及第二深度模型。

在一个实施例中，所述处理器110在执行基于所述图像样本数据对初始第一深度模型进行深度估计训练和对初始第二深度模型进行帧间深度融合训练，得到训练后的第一深度模型以及第二深度模型时，具体执行以下操作：

将所述图像样本数据中的各所述样本图像输入初始第一深度模型输出各所述样本图像对应的样本深度估计图，并基于所述样本深度估计图对所述初始第一深度模型进行深度估计训练，直至所述初始第一深度模型完成训练，得到训练后的第一深度模型；

将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型输出样本深度融合图，并基于所述样本深度融合图对所述初始第二深度模型进行帧间深度融合训练，直至所述初始第二深度模型完成训练，得到训练后的第二深度模型。

在一个实施例中，所述处理器110在执行所述将所述图像样本数据中的各所述样本图像输入初始第一深度模型输出各所述样本图像对应的样本深度估计图，并基于所述样本深度估计图对所述初始第一深度模型进行深度估计训练，具体执行以下步骤：

确定各所述样本图像对应的标签深度图；

将各所述样本图像输入初始第一深度模型进行深度估计处理，输出各所述样本图像对应的样本深度估计图；

基于所述和所述标签深度图确定像素估计损失，基于所述像素估计损失对所述初始第一深度图进行模型参数调整。

在一个实施例中，所述处理器110在执行所述基于所述样本深度估计图和所述标签深度图确定像素估计损失，具体执行以下步骤：

所述第一损失计算式满足以下公式：

在一个实施例中，所述处理器110在执行所述确定各所述样本图像对应的标签深度图之前，还包括：

在一个实施例中，所述图像样本类型包括攻击图像类型和活体图像类型，所述处理器110在执行所述基于所述图像样本类型设置所述样本图像对应的标签深度图，具体执行以下步骤：

在一个实施例中，所述处理器110在执行所述将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型输出样本深度融合图，并基于所述样本深度融合图对所述初始第二深度模型进行帧间深度融合训练，具体执行以下步骤：

将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型进行深度重建处理，得到所述样本深度估计图对应的深度图估计特征、所述样本深度估计图对应的样本深度重建图；

基于各所述样本深度估计图对应的深度图估计特征进行帧间深度融合输出样本深度融合图，并基于所述样本深度重建图和所述样本深度估计图对所述初始第二深度模型进行模型参数调整。

在一个实施例中，所述初始第二深度模型至少包括第一深度编码网络、第二深度解码网络以及第三自注意力网络，所述处理器110在执行所述将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型进行深度重建处理，得到所述样本深度估计图对应的深度图估计特征、所述样本深度估计图对应的样本深度重建图，基于各所述样本深度估计图对应的深度图估计特征进行帧间深度融合输出样本深度融合图，具体执行以下步骤：

将所述同一样本对象的各所述样本图像对应的所述样本深度估计图分别输入至所述第一深度编码网络，得到各所述样本深度估计图对应的深度图估计特征；

将所述深度图估计特征输入至所述第二深度解码网络，得到所述样本深度估计图对应的样本深度重建图；

将各所述样本深度估计图对应的深度图估计特征输入第三自注意力网络，得到参考深度图和帧间关系矩阵，所述参考深度图为各所述样本深度估计图中的其一；

在一个实施例中，所述处理器110在执行所述基于所述帧间关系矩阵和所述参考深度图进行帧间深度融合以输出样本深度融合图，具体执行以下步骤：

基于所述帧间关系矩阵和所述参考深度图采用第二帧间融合计算式进行加权融合，得到样本深度融合图；

所述第二帧间融合计算式满足以下公式：

在一个实施例中，所述处理器110在执行所述基于所述样本深度重建图和所述样本深度估计图对所述初始第二深度模型进行模型参数调整，具体执行以下步骤：

将针对所述同一样本对象的各所述样本深度估计图和所述样本深度重建图输入至第三损失计算式中，确定深度重建损失；

所述第三损失计算式满足以下公式：

在一个实施例中，所述处理器110在执行所述基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像之后，还具体执行以下步骤：

基于第三深度模型对所述第二深度图像进行质量强化处理，得到质量强化处理后的第三深度图像；

所述基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理，包括：

在一个实施例中，所述处理器110在执行所述图像活体检测方法，还执行以下步骤：

创建初始第三深度模型；

在一个实施例中，所述处理器110在执行所述基于各所述样本深度融合图对所述初始第三深度模型进行质量强化训练，得到训练后的第三深度模型，具体执行以下步骤：

获取所述样本深度融合图对应的深度图强化标签；

在一个实施例中，所述处理器110在执行所述基于所述样本强化深度图和所述深度图强化标签对所述初始第三深度模型进行模型参数调整，具体执行以下步骤：

将所述样本强化深度图和所述深度图强化标签输入至第四损失计算式中，确定质量强化损失；

所述第四损失计算式满足以下公式：

在一个实施例中，所述处理器110在执行所述基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理，具体执行以下步骤：

在一个实施例中，所述处理器110在执行所述基于所述第一活体概率值和所述第二活体概率值确定所述目标对象的活体检测类型，具体执行以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像活体检测方法，所述方法包括：

获取针对目标对象的至少两帧目标彩色图像；

2.根据权利要求1所述的方法，所述方法还包括：

创建初始第一深度模型以及初始第二深度模型；

3.根据权利要求2所述的方法，所述基于所述图像样本数据对初始第一深度模型进行深度估计训练和对初始第二深度模型进行帧间深度融合训练，得到训练后的第一深度模型以及第二深度模型，包括：

4.根据权利要求3所述的方法，所述将所述图像样本数据中的各所述样本图像输入初始第一深度模型输出各所述样本图像对应的样本深度估计图，并基于所述样本深度估计图对所述初始第一深度模型进行深度估计训练，包括：

确定各所述样本图像对应的标签深度图；

5.根据权利要求4所述的方法，所述基于所述样本深度估计图和所述标签深度图确定像素估计损失，包括：

所述第一损失计算式满足以下公式：

6.根据权利要求4所述的方法，所述确定各所述样本图像对应的标签深度图之前，还包括：

7.根据权利要求6所述的方法，所述图像样本类型包括攻击图像类型和活体图像类型，

所述基于所述图像样本类型设置所述样本图像对应的标签深度图，包括：

8.根据权利要求4所述的方法，所述将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型输出样本深度融合图，并基于所述样本深度融合图对所述初始第二深度模型进行帧间深度融合训练，包括：

9.根据权利要求8所述的方法，所述初始第二深度模型至少包括第一深度编码网络、第二深度解码网络以及第三自注意力网络，

所述将各所述样本图像对应的所述样本深度估计图输入至初始第二深度模型进行深度重建处理，得到所述样本深度估计图对应的深度图估计特征、所述样本深度估计图对应的样本深度重建图，基于各所述样本深度估计图对应的深度图估计特征进行帧间深度融合输出样本深度融合图，包括：

10.根据权利要求9所述的方法，所述基于所述帧间关系矩阵和所述参考深度图进行帧间深度融合以输出样本深度融合图，包括：

所述第二帧间融合计算式满足以下公式：

11.根据权利要求8所述的方法，所述基于所述样本深度重建图和所述样本深度估计图对所述初始第二深度模型进行模型参数调整，包括：

所述第三损失计算式满足以下公式：

12.根据权利要求1所述的方法，所述基于第二深度模型对各所述第一深度图像进行帧间深度融合处理，得到针对所述目标对象的第二深度图像之后，还包括：

13.根据权利要求12所述的方法，所述方法还包括：

创建初始第三深度模型；

14.根据权利要求13所述的方法，所述基于各所述样本深度融合图对所述初始第三深度模型进行质量强化训练，得到训练后的第三深度模型，包括：

获取所述样本深度融合图对应的深度图强化标签；

15.根据权利要求14所述的方法，所述基于所述样本强化深度图和所述深度图强化标签对所述初始第三深度模型进行模型参数调整，包括：

所述第四损失计算式满足以下公式：

16.根据权利要求1-15任一项所述的方法，所述基于所述第二深度图像以及所述目标彩色图像对所述目标对象进行图像活体检测处理，包括：

17.根据权利要求16所述的方法，所述基于所述第一活体概率值和所述第二活体概率值确定所述目标对象的活体检测类型，包括：

18.一种图像活体检测装置，所述装置包括：

图像获取模块，用于基于图像活体检测任务获取针对目标对象的至少两帧目标彩色图像；

19.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～17任意一项的方法步骤。

20.一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如权利要求1～17任意一项的方法步骤。

21.一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～17任意一项的方法步骤。