CN114612979A

CN114612979A - 一种活体检测方法及装置、电子设备、存储介质

Info

Publication number: CN114612979A
Application number: CN202210234381.4A
Authority: CN
Inventors: 李茜萌; 陆进; 朱禹萌; 刘玉宇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-10
Anticipated expiration: 2042-03-09
Also published as: CN114612979B

Abstract

一种活体检测方法及装置、电子设备、存储介质，该方法包括：获取目标对象的多个视频图像帧，并根据多个视频图像帧生成多个图像对。对图像对进行空间特征提取，得到空间特征信息，空间特征信息包括多个第一图像通道对应的空间特征。对图像对进行时序特征提取，得到时序特征信息，时序特征信息包括多个第二图像通道的时序特征。根据空间特征信息和时序特征信息，生成第一图像通道和第二图像通道各自的通道注意力。从多个第一图像通道和多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道，并获取目标图像通道对应的目标特征信息以进行活体检测，能够从图像通道维度上保留重要的时间及空间特征信息，有利于提升活体检测的准确性。

Description

一种活体检测方法及装置、电子设备、存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种活体检测方法及装置、电子设备、存储介质。

背景技术

在人脸识别中，活体检测是重要的防欺诈手段，用于识别目标对象是否为真实人类。现有的活体检测方式主要是对拍摄到的单帧静态图像进行图像特征分析，从而获得活体鉴别结果。然而，随着屏幕显示以及纸张成像技术的发展，这种方式存在较大的局限性，使得活体检测的准确率较低。

发明内容

本申请提供一种活体检测方法及装置、电子设备、存储介质，其主要目的在于提升活体检测的准确性。

为实现上述目的，本申请实施例提供了一种活体检测方法，所述方法包括以下步骤：

获取目标对象多个视频图像帧，并根据所述多个视频图像帧生成多个图像对；

对所述图像对进行空间特征提取，得到空间特征信息，所述空间特征信息包括多个第一图像通道和所述第一图像通道对应的空间特征；

对所述图像对进行时序特征提取，得到时序特征信息，所述时序特征信息包括多个第二图像通道和所述第二图像通道对应的时序特征；

根据所述空间特征信息和所述时序特征信息，生成所述第一图像通道的通道注意力和所述第二图像通道的通道注意力；

从所述多个第一图像通道和所述多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道；

根据所述空间特征信息和所述时序特征信息，获取所述目标图像通道对应的目标特征信息；

根据所述目标特征信息进行活体检测，得到活体检测结果。

在一些实施方式中，所述对所述图像对进行时序特征提取，得到时序特征信息，包括：将所述图像对输入第一预设模型中进行时序特征提取，得到时序特征信息；

其中，所述第一预设模型的训练步骤包括：

获取一定数量的图像对样本以及所述图像对样本的目标标注数据；利用所述图像对样本训练第一预设模型，得到训练信息；根据所述训练信息，生成光流特征信息；根据所述光流特征信息、所述训练信息和所述目标标注数据对所述第一预设模型的参数进行调整，直至所述第一预设模型满足训练结束条件。

在一些实施方式中，所述利用所述图像对样本训练第一预设模型，得到训练信息，包括：

将所述图像对样本输入第一预设模型中进行N次特征提取，得到训练信息，所述训练信息包括第N-m次特征提取对应的第一提取信息以及第N次特征提取对应的第二提取信息，N和m均为正整数，且m∈[1,N-1]；

所述根据所述训练信息，生成光流特征信息，包括：

根据所述第一提取信息，生成光流特征信息。

在一些实施方式中，所述目标标注数据包括所述图像样本的时序特征标注数据以及光流标注数据；所述根据所述光流特征信息、所述训练信息和所述目标标注数据对所述第一预设模型的参数进行调整，直至所述第一预设模型满足训练结束条件，包括：

根据所述光流特征信息和所述光流标注数据，计算第一损失值；根据所述第二提取信息和所述时序特征标注数据，计算第二损失值；根据所述第一损失值和所述第二损失值验证所述第一预设模型是否满足训练结束条件；若所述第一预设模型满足所述训练结束条件，则训练结束；若所述第一预设模型不满足所述训练结束条件，根据所述第一损失值和所述第二损失值调整所述第一预设模型的参数，以及，增加样本数量并重新执行训练步骤。

在一些实施方式中，所述从所述多个第一图像通道和所述多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道，包括：

针对每个所述第一图像通道，从所述多个第二图像通道中取与所述第一图像通道对应的第二图像通道作为对比通道；若所述第一图像通道的通道注意力大于所述对比通道的通道注意力，取所述第一图像通道作为目标图像通道；若所述第一图像通道的通道注意力小于所述对比通道的通道注意力，取所述对比通道作为目标图像通道。

获取预设通道数K，K为正整数；根据所述预设通道数K，从所述多个第一图像通道和所述多个第二图像通道中确定通道注意力取值最大的K个目标图像通道。

在一些实施方式中，所述根据所述多个视频图像帧生成多个图像对，包括：

根据预设的属性类型，获取每个所述视频图像帧针对所述属性类型的属性信息；根据每个所述视频图像帧的属性信息，按照预设规则从所述多个视频图像帧中筛选出多个第一图像帧；从所述多个视频图像帧中获取与所述第一图像帧满足预设配对条件的第二图像帧，并取所述第一图像帧和所述第二图像帧作为图像对，所述预设配对条件包括：所述第一图像帧的属性信息和所述第二图像帧的属性信息之间符合预设差异条件。

为实现上述目的，本申请实施例还提出了一种活体检测装置，所述装置包括：

第一获取模块，用于获取目标对象的多个视频图像帧，并根据所述多个视频图像帧生成多个图像对；

第一提取模块，用于对所述图像对进行空间特征提取，得到空间特征信息，所述空间特征信息包括多个第一图像通道和所述第一图像通道对应的空间特征；

第二提取模块，用于对所述图像对进行时序特征提取，得到时序特征信息，所述时序特征信息包括多个第二图像通道和所述第二图像通道对应的时序特征；

生成模块，用于根据所述空间特征信息和所述时序特征信息，生成所述第一图像通道的通道注意力和所述第二图像通道的通道注意力；

确定模块，用于从所述多个第一图像通道和所述多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道；

第二获取模块，用于根据所述空间特征信息和所述时序特征信息，获取所述目标图像通道对应的目标特征信息；

检测模块，用于根据所述目标特征信息进行活体检测，得到活体检测结果。

为实现上述目的，本申请实施例还提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有程序，所述程序被所述处理器执行时实现前述方法的步骤。

为实现上述目的，本申请提供了一种存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述方法的步骤。

本申请提出的活体检测方法及装置、电子设备、存储介质，可以获取目标对象的多个视频图像帧，这些视频图像帧包含了视频动态信息。基于此，根据多个视频图像帧生成多个图像对，再分别对图像对进行空间特征和时序特征提取，能够同时在时间和空间维度上获得丰富的特征信息，即多个第一图像通道及其对应的空间特征，以及多个第二图像通道及其对应的时序特征。之后，根据空间特征信息和时序特征信息，生成第一图像通道的通道注意力和第二图像通道的通道注意力，并从多个第一图像通道和多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道，能够保留更为关键的图像通道，舍弃贡献较小的图像通道，从而获取目标图像通道对应的目标特征信息以进行活体检测。可见，本申请有效地利用活体和非活体在动态移动过程中的不一致性，解决单帧静态图像的检测局限性问题，并从图像通道的维度上保留重要的时间及空间特征信息，提升了后续活体检测的准确性。

附图说明

图1是本申请实施例所应用的一种电子设备的结构框图；

图2是本申请实施例提供的一种活体检测方法的流程示意图；

图3是图2所示实施例中步骤S210的具体流程示意图；

图4是本申请实施例中一种第一预设模型的训练流程示意图；

图5是本申请实施例中一种第一预设模型和光流监督模块的结构示意图；

图6是本申请实施例中一种目标模型的结构示意图；

图7是本申请实施例所应用的一种活体检测装置的结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。其中，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术，而人工智能软件技术主要包括计算机视觉技术(比如人脸识别)、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

为了解决上述问题，本申请提供一种活体检测方法，应用于一种电子设备。参照图1所示，图1是本申请实施例所应用的一种电子设备的结构框图。

在本申请实施例中，电子设备可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子设备包括：存储器11、处理器12、网络接口13及数据总线14。

存储器11包括至少一种类型的可读存储介质，至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子设备的内部存储单元，例如该电子设备的硬盘。在另一些实施例中，可读存储介质也可以是电子设备的外部存储器，例如电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，存储器11的可读存储介质通常用于存储安装于电子设备的活体检测程序、多种样本集及预先训练好的模型等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行活体检测程序等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备与其他电子设备之间建立通信连接。

数据总线14用于实现这些组件之间的连接通信。

可选的，该电子设备还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选的，该电子设备还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

可选的，该电子设备还包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子设备的显示器的面积可以与触摸传感器的面积相同，也可以不同。可选地，将显示器与触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

下面对本申请实施例公开的一种活体检测方法进行具体说明。

如图2所示，图2是本申请实施例提供的一种活体检测方法的流程示意图。基于图1所示的电子设备，处理器12执行存储器11中存储的程序时实现如下步骤S200至步骤S270。

步骤S200：获取目标对象的多个视频图像帧。

在本申请实施例中，可以获取对目标对象拍摄的视频数据，再按照视频时序从视频数据中提取出多个视频图像帧。其中，视频数据的获取方式包括但不限于以下任一项：利用电子设备的拍摄装置对目标对象拍摄视频；从指定数据库或其他存储模块调取预先存储的视频数据；接收通过用户接口上传到电子设备的视频数据；接收其他设备(比如门禁摄影装置或道路监控装置等)向电子设备发送的视频数据。可以理解，每个视频图像帧中均包含目标对象，目标对象是任意具有特定性质(包括形状、灰度及纹理等)的对象。示例性的，在人脸识别的场合下，目标对象可以是人脸或者其他非活体对象，非活体对象包括但不限于照片、电子屏和工卡等。

步骤S210：根据多个视频图像帧生成多个图像对。

在本申请实施例中，一个图像对可以包括两个视频图像帧。作为一种可选的实施方式，如图3所示，图3是图2所示实施例中步骤S210的具体流程示意图。步骤S210可以包括步骤S211至步骤S213。

步骤S211：根据预设的属性类型，获取每个视频图像帧针对属性类型的属性信息。

其中，预设的属性类型可以由人为指定并调整，其包括但不限于视频图像帧的像素、拍摄时序和组成部分等图像属性信息中的至少一种。示例性的，步骤S211中，如果属性类型为拍摄时序，则获取视频图像帧的时序信息；如果属性类型为像素，则获取视频图像帧的像素信息。

步骤S212：根据每个视频图像帧的属性信息，按照预设规则从多个视频图像帧中筛选出多个第一图像帧。

具体的，预设规则包括但不限于以下两种实现方式：一种实现方式中，根据每个视频图像帧的时序信息，确定初始时间和结束时间，并从初始时间开始，按照预设的第一时间间隔从多个视频图像帧中提取第一图像帧。其中，第一时间间隔可以是人为指定，比如1秒，第一时间间隔也可以根据初始时间和结束时间确定，比如第一时间间隔＝(结束时间-初始时间)÷指定的图像帧数量S，对此不作具体限定。另一种实现方式中，也可以在多个视频图像帧中随机选取S个第一图像帧。可见，选取一定数量的视频图像帧进行特征提取，能够减少实际部署的负载压力。

步骤S213：从多个视频图像帧中获取与第一图像帧满足预设配对条件的第二图像帧，并取第一图像帧和第二图像帧作为图像对。

其中，预设配对条件至少包括：第一图像帧的属性信息和第二图像帧的属性信息之间符合预设差异条件。预设规则和预设差异条件均可以与属性类型相关，并由人为根据实际需求进行调整。可见，基于步骤S211至步骤S213，根据视频图像帧自身的图像属性以及不同视频图像帧之间的属性配对关系，构建符合动态差异条件的图像对，便于精准分析活体及非活体的动态特征。

一种实现方式中，如果属性类型为拍摄时序，则预设配对条件可以是：第一图像帧与第二图像帧之间的时间间隔大于或等于预设的第二时间间隔，其中，时序间隔根据第一图像帧的时序信息和第二图像帧的时序信息计算得到，第二时间间隔由人为指定，比如第二时间间隔为0.2秒或0.4秒等，不做具体限定。

另一种实现方式中，如果属性类型为像素，则预设配对条件可以是：第一图像帧与第二图像帧之间的像素差大于或等于指定像素阈值，其中，像素差根据第一图像帧的像素信息和第二图像帧的像素信息计算得到。

步骤S220：对图像对进行空间特征提取，得到空间特征信息。

在本申请实施例中，空间特征信息包括多个第一图像通道和第一图像通道对应的空间特征。可以理解，每个图像通道对应于不同特征类型(比如颜色、背景、细节等)，故每个图像通道的空间特征表示根据该图像通道对应的特征类型从图像对中提取的空间特征数据。实际应用中，第一图像通道的类型与数量可以根据实际需要进行调整。

一些可选的实施方式中，可以预先构建并训练一个第二预设模型，第二步预设模型包括但不限于ResNet模型和VGG模型等卷积神经网络模型。在步骤S220中，可以将图像对中的第一图像帧或第二图像帧输入第二预设模型中，得到空间特征信息。或者，将图像对中的第一图像帧和第二图像帧叠加后输入第二预设模型中。

具体的，第二预设模型可以采取ResNet34的网络结构，并利用堆叠带有残差结构的卷积模块对输入第二预设模型的图像帧进行特征提取及尺寸缩放，得到维度为W*H*C的空间特征图(即空间特征信息)，W为空间特征图的宽度，H为空间特征图的高度，C表示第一图像通道的数量，且C的具体取值与第二预设模型的输出通道数相关。

步骤S230：对图像对进行时序特征提取，得到时序特征信息。

在本申请实施例中，时序特征信息包括多个第二图像通道和第二图像通道对应的时序特征。实际应用中，第二图像通道与第一图像通道可以具有一一对应关系，便于实现空间特征与时序特征的对齐。一些可选的实施方式中，可以预先构建并训练一个第一预设模型，在步骤S220中，将图像对输入第一预设模型中进行时序特征提取，得到时序特征信息。

请参阅图4，图4是本申请实施例中一种第一预设模型的训练流程示意图。如图4所示，第一预设模型的训练步骤至少包括但不限于步骤S400至步骤S430：

步骤S400：获取一定数量的图像对样本以及图像对样本的目标标注数据。

步骤S410：利用图像对样本训练第一预设模型，得到训练信息。

步骤S420：根据训练信息，生成光流特征信息。

其中，光流特征信息表示图像对样本中两个图像帧之间的像素运动信息，比如像素移动方向和移动速度等。生成光流特征信息的算法可以包括但不限于Lucas–Kanade光流算法、Horn-Schunck光流算法、基于金字塔分层的LK光流法和基于深度学习的光流估计算法等。

步骤S430：根据光流特征信息、训练信息和目标标注数据对第一预设模型的参数进行调整，直至第一预设模型满足训练结束条件。

可见，基于步骤S400至步骤S430，在第一预设模型的训练过程中，取训练信息生成光流特征信息，从而利用光流特征信息对第一预设模型的训练过程进行光流监督，能够有效地引导第一预设模型学习图像对之间的整体运动趋势，使得第一预设模型根据运动趋势准确提取关键动态特征。并且，这样既可以提取图像帧中的全局特征，又可以获取到部分局部细节，提高对图像帧进行动态特征提取的准确率。

进一步，一些可选的实施方式中，步骤S410具体为：将图像对样本输入第一预设模型中进行N次特征提取，得到训练信息，训练信息包括第N-m次特征提取对应的第一提取信息以及第N次特征提取对应的第二提取信息，N和m均为正整数，且m∈[1,N-1]。相应的，步骤S420具体为：根据第一提取信息，生成光流特征信息。可见，光流监督可以介入时序特征提取过程中的具体节点，故监督方式更加灵活多样。

可选的，第一预设模型包括N个相连或堆叠的卷积层，且这些卷积层的卷积参数逐渐变小，直至最后一个卷积层输出维度为W*H*C的时序特征图，也即第N次特征提取对应的第二提取信息。故，第N-m次特征提取对应的第一提取信息可以是第N-m个卷积层输出的时序特征图。

举例来说，请参阅图5，图5是本申请实施例中一种第一预设模型和光流监督模块的结构示意图。如图5所示，第一预设模型包括5个依次连接的卷积层，示例性的，卷积层1的卷积参数W1*H1为112*112，卷积层2的卷积参数W2*H2为56*56，卷积层3的卷积参数W3*H3为28*28，卷积层4的卷积参数W4*H4为14*14，卷积层5的卷积参数W5*H5为7*7，实现了对时序特征图的尺寸缩放。

可以理解，时序特征图与步骤S220中获得的空间特征图保持尺寸及图像通道数一致，比如，空间特征图与时序特征图的尺寸均为7*7，图像通道数均为512。

还可选的，可以预先构建一个光流监督模块，光流监督模块包括至少一个反卷积层和光流预测层。将第一提取信息输入光流监督模块中，经过反卷积层对特征图的尺寸放大作用，再通过光流预测层输出光流特征信息。示例性的，如图5所示，光流监督模块可以包括2个连接的反卷积层和光流预测层，若第一提取信息为第一预设模型中卷积层4输出的时序特征图(尺寸为14*14)，则将该时序特征图输入光流监督模块，通过光流监督模块中第1个反卷积层将时序特征图的尺寸扩大至28*28，再经第2个反卷积层扩大至56*56，最终由光流预测层对尺寸为56*56的时序特征图进行光流预测。

可见，当在第一预设模型中第N-m个卷积层后引入光流监督，则光流监督结果会辅助引导第1至N-m-1个卷积层的特征提取学习过程，并确保后续卷积层更准确地提取关键动态特征，故m的取值越小，光流监督辅助引导的卷积层也会越多，光流监督的影响越大。

一种实现方式中，目标标注数据包括图像样本的时序特征标注数据以及光流标注数据(比如光流图像)，则步骤S430具体可以为：根据光流特征信息和光流标注数据，计算第一损失值。根据第二提取信息和时序特征标注数据，计算第二损失值。其中，计算第一损失值时采用的损失函数包括但不限于I2范数、WARP损失和平滑度损失函数等，计算第二损失值时采用的损失函数包括但不限于L1范数、MSE损失和交叉熵损失函数等。基于此，根据第一损失值和第二损失值验证第一预设模型是否满足训练结束条件。若第一预设模型满足训练结束条件，则训练结束；若第一预设模型不满足训练结束条件，根据第一损失值和第二损失值调整第一预设模型的参数，以及，增加样本数量并重新执行训练步骤。可见，将光流监督的损失值作为第一预设模型的损失函数的辅助项，实现了多尺度辅助损失的效果。

可选的，训练结束条件包括但不限于指定的损失阈值，则根据第一损失值和第二损失值验证第一预设模型是否满足训练结束条件，包括：根据第一损失值和第二损失值，计算目标损失值，若目标损失值小于或等于损失阈值，则第一预设模型满足训练结束条件，若目标损失值大于损失阈值，则第一预设模型未满足训练结束条件。计算目标损失值的方式包括但不限于：目标损失值＝第一权重×第一损失值+第二权重×第二损失值，第一权重是为第一预设模型设定的权重，第二权重是为光流监督设定的权重。一些实现方式中，第二权重可以与N-m的取值相关，比如，两者成正比关系。

步骤S240：根据空间特征信息和时序特征信息，生成第一图像通道的通道注意力和第二图像通道的通道注意力。

在本申请实施例中，通道注意力表示相应图像通道对活体鉴别的贡献权重。步骤S240具体可以基于注意力机制生成通道注意力，即：将空间特征信息和时序特征信息相加，得到第一特征信息，再将第一特征信息进行池化操作，得到第二特征信息，实现对第一特征信息的尺寸缩放。之后，对第二特征信息依次进行全连接以及softmax分类操作，得到各个第一图像通道的通道注意力以及各个第二图像通道的通道注意力。

可选的，也可以预先构建并训练一个注意力网络，注意力网络具体可以包括依次相连的池化层、全连接层和softmax分类层，将空间特征信息和时序特征信息输入注意力网络中，即可得到第一图像通道的通道注意力和第二图像通道的通道注意力。一些实现方式中，池化层具体可以是全局平均池化层。

可见，由于不同的图像通道维度上，空间特征与时序特征对于活体鉴别的贡献未必相等，因此，基于注意力机制，可以生成各个空间特征与时序特征的贡献权重，便于分析活体鉴别的特征识别重点。

步骤S250：从多个第一图像通道和多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道。

一种实现方式中，步骤S250具体可以为：针对每个第一图像通道，从多个第二图像通道中取与第一图像通道对应的第二图像通道作为对比通道。若第一图像通道的通道注意力大于对比通道的通道注意力，取第一图像通道作为目标图像通道。若第一图像通道的通道注意力小于对比通道的通道注意力，取对比通道作为目标图像通道。可以理解，如果第一图像通道(或第二图像通道)的数量为C个，则最终确定的目标图像通道的数量也为C个。基于此，针对每种特征类型，可以筛选出贡献权重更大的第一图像通道或第二图像通道，在保留所有特征类型的图像通道的基础上，减少非关键通道参与后续计算。

另一种实现方式中，步骤S250具体可以为：获取预设通道数K，K为正整数。根据预设通道数K，从多个第一图像通道和多个第二图像通道中确定通道注意力取值最大的K个目标图像通道，K为正整数。实际应用中，可以根据实际需要调整预设通道数K，且K∈[1，P]，比如，K取值为512。故，这种方式下，无需保留所有特征类型的图像通道，而是直接按照通道注意力的大小排序进行图像通道的取舍。

步骤S260：根据空间特征信息和时序特征信息，获取目标图像通道对应的目标特征信息。

步骤S270：根据目标特征信息进行活体检测，得到活体检测结果。

在本申请实施例中，活体检测结果用于表示目标对象是否为活体。一种可选的实施方式中，可以将目标特征信息输入预先训练的活体检测网络中，得到从图像对中识别出目标对象为活体或非活体的概率值，且概率值∈[0，1]。其中，活体检测网络可以包括全局平均池化层、全连接层和softmax分类层。

进一步的，根据每个图像对对应的概率值，可以生成活体检测结果。一种实现方式中，可以根据所有图像对，统计概率值超过概率阈值的图像对的数量，若该数量与所有图像对的数量之间的比值超过预设比值，判定目标对象为活体，否则判定目标对象为非活体。

另一种实现方式中，可以计算所有图像对对应的总概率值，若总概率值超过概率阈值，则判定目标对象为活体，若总概率值未超过概率阈值，则判定目标对象为非活体。可选的，计算总概率值的方式包括但不限于：利用指定权重(比如1/所有图像对的数量)对每个图像对对应的概率值进行加权计算，再对每个图像对的加权结果进行求和计算，得到总概率值。

其中，概率阈值和预设比值均是人为设定，比如两者的取值均为50％或70％等，不做限定。

此外，在另一种可选的实施方式中，如图6所示，还可以取上述第一预设模型作为第一提取分支，取第二预设模型作为第二提取分支，从而基于第一提取分支、第二提取分支、注意力网络和活体检测网络构建一个目标模型。基于此，以图像对样本为训练集，以图像对样本的标签(即图像对样本中包含的对象为活体或非活体)为验证集对目标模型进行训练，并可以在目标模型的训练阶段加入光流监督模块以对第一提取分支进行光流监督学习。实际应用中，步骤S210之后，直接将图像对输入目标模型中，即可得到每个图像对对应的概率值。

可见，实施上述方法实施例，通过舍弃贡献较小的图像通道，保留更为关键的图像通道及对应的特征信息进行活体检测，有效地利用了活体和非活体在动态移动过程中的不一致性，解决单帧静态图像的检测局限性问题，并从图像通道的维度上保留重要的时间及空间特征信息，提升了后续活体检测的准确性。

本申请实施例还提供一种活体检测装置。请参阅图7，图7是本申请实施例所应用的一种活体检测装置的结构框图。如图7所示，该活体检测装置700包括第一获取模块710、第一提取模块720、第二提取模块730、生成模块740、确定模块750、第二获取模块760以及检测模块770，其中：

第一获取模块710，用于获取目标对象的多个视频图像帧，并根据多个视频图像帧生成多个图像对。

第一提取模块720，用于对图像对进行空间特征提取，得到空间特征信息，空间特征信息包括多个第一图像通道和第一图像通道对应的空间特征。

第二提取模块730，用于对图像对进行时序特征提取，得到时序特征信息，时序特征信息包括多个第二图像通道和第二图像通道对应的时序特征。

生成模块740，用于根据空间特征信息和时序特征信息，生成第一图像通道的通道注意力和第二图像通道的通道注意力。

确定模块750，用于从多个第一图像通道和多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道。

第二获取模块760，用于根据空间特征信息和时序特征信息，获取目标图像通道对应的目标特征信息。

检测模块770，用于根据目标特征信息进行活体检测，得到活体检测结果。

一些可选的实施方式中，第二提取模块具体用于将图像对输入第一预设模型中进行时序特征提取，得到时序特征信息。该活体检测装置还包括训练模块，训练模块用于获取一定数量的图像对样本以及图像对样本的目标标注数据。利用图像对样本训练第一预设模型，得到训练信息。根据训练信息，生成光流特征信息。根据光流特征信息、训练信息和目标标注数据对第一预设模型的参数进行调整，直至第一预设模型满足训练结束条件。

进一步的，一些可选的实施方式中，训练模块还用于将图像对样本输入第一预设模型中进行N次特征提取，得到训练信息，训练信息包括第N-m次特征提取对应的第一提取信息以及第N次特征提取对应的第二提取信息，N和m均为正整数，且m∈[1,N-1]；以及，根据第一提取信息，生成光流特征信息。

再进一步的，一些可选的实施方式中，目标标注数据包括图像样本的时序特征标注数据以及光流标注数据。训练模块还用于根据光流特征信息和光流标注数据，计算第一损失值；根据第二提取信息和时序特征标注数据，计算第二损失值；根据第一损失值和第二损失值验证第一预设模型是否满足训练结束条件；若第一预设模型满足训练结束条件，则训练结束；若第一预设模型不满足训练结束条件，根据第一损失值和第二损失值调整第一预设模型的参数，以及，增加样本数量并重新执行训练步骤。

一些可选的实施方式中，确定模块还用于针对每个第一图像通道，从多个第二图像通道中取与第一图像通道对应的第二图像通道作为对比通道；若第一图像通道的通道注意力大于对比通道的通道注意力，取第一图像通道作为目标图像通道；若第一图像通道的通道注意力小于对比通道的通道注意力，取对比通道作为目标图像通道。

另一些可选的实施方式中，确定模块还用于获取预设通道数K；根据预设通道数K，从多个第一图像通道和多个第二图像通道中确定通道注意力取值最大的K个目标图像通道，K为正整数。

一些可选的实施方式中，第一获取模块还用于根据预设的属性类型，获取每个视频图像帧针对属性类型的属性信息；根据每个视频图像帧的属性信息，按照预设规则从多个视频图像帧中筛选出多个第一图像帧；从多个视频图像帧中获取与第一图像帧满足预设配对条件的第二图像帧，并取第一图像帧和第二图像帧作为图像对，预设配对条件包括：第一图像帧的属性信息和第二图像帧的属性信息之间符合预设差异条件。

需要说明的是，本实施例的具体实现过程可参见上述方法实施例的具体实现过程，亦不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器，存储器上存储有程序，程序被处理器执行时实现上述活体检测方法。

本申请实施例还提供了一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述活体检测方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本申请的优选实施例，并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

Claims

1.一种活体检测方法，其特征在于，所述方法包括：

获取目标对象的多个视频图像帧，并根据所述多个视频图像帧生成多个图像对；

根据所述目标特征信息进行活体检测，得到活体检测结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述图像对进行时序特征提取，得到时序特征信息，包括：

将所述图像对输入第一预设模型中进行时序特征提取，得到时序特征信息；

其中，所述第一预设模型的训练步骤包括：

获取一定数量的图像对样本以及所述图像对样本的目标标注数据；

利用所述图像对样本训练第一预设模型，得到训练信息；

根据所述训练信息，生成光流特征信息；

根据所述光流特征信息、所述训练信息和所述目标标注数据对所述第一预设模型的参数进行调整，直至所述第一预设模型满足训练结束条件。

3.根据权利要求2所述的方法，其特征在于，所述利用所述图像对样本训练第一预设模型，得到训练信息，包括：

所述根据所述训练信息，生成光流特征信息，包括：

根据所述第一提取信息，生成光流特征信息。

4.根据权利要求3所述的方法，其特征在于，所述目标标注数据包括所述图像样本的时序特征标注数据以及光流标注数据；所述根据所述光流特征信息、所述训练信息和所述目标标注数据对所述第一预设模型的参数进行调整，直至所述第一预设模型满足训练结束条件，包括：

根据所述光流特征信息和所述光流标注数据，计算第一损失值；

根据所述第二提取信息和所述时序特征标注数据，计算第二损失值；

根据所述第一损失值和所述第二损失值验证所述第一预设模型是否满足训练结束条件；

若所述第一预设模型满足所述训练结束条件，则训练结束；若所述第一预设模型不满足所述训练结束条件，根据所述第一损失值和所述第二损失值调整所述第一预设模型的参数，以及，增加样本数量并重新执行训练步骤。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述从所述多个第一图像通道和所述多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道，包括：

针对每个所述第一图像通道，从所述多个第二图像通道中取与所述第一图像通道对应的第二图像通道作为对比通道；

若所述第一图像通道的通道注意力大于所述对比通道的通道注意力，取所述第一图像通道作为目标图像通道；

若所述第一图像通道的通道注意力小于所述对比通道的通道注意力，取所述对比通道作为目标图像通道。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述从所述多个第一图像通道和所述多个第二图像通道中确定通道注意力满足预设注意力条件的目标图像通道，包括：

获取预设通道数K，K为正整数；

根据所述预设通道数K，从所述多个第一图像通道和所述多个第二图像通道中确定通道注意力取值最大的K个目标图像通道。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述多个视频图像帧生成多个图像对，包括：

根据预设的属性类型，获取每个所述视频图像帧针对所述属性类型的属性信息；

根据每个所述视频图像帧的属性信息，按照预设规则从所述多个视频图像帧中筛选出多个第一图像帧；

从所述多个视频图像帧中获取与所述第一图像帧满足预设配对条件的第二图像帧，并取所述第一图像帧和所述第二图像帧作为图像对，所述预设配对条件包括：所述第一图像帧的属性信息和所述第二图像帧的属性信息之间符合预设差异条件。

8.一种活体检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的活体检测方法的步骤。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的活体检测方法的步骤。