WO2021082562A1

WO2021082562A1 - 活体检测方法、装置、电子设备、存储介质及程序产品

Info

Publication number: WO2021082562A1
Application number: PCT/CN2020/105213
Authority: WO
Inventors: 张卓翼; 蒋程
Original assignee: 上海商汤智能科技有限公司
Priority date: 2019-10-31
Filing date: 2020-07-28
Publication date: 2021-05-06
Also published as: CN112749603A; JP2022522203A; US20210397822A1; SG11202111482XA

Abstract

本公开提供了一种活体检测方法、装置、电子设备、存储介质及计算机程序产品。其中，该方法包括：基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从所述待检测视频中确定多帧目标人脸图像；基于所述多帧目标人脸图像，确定所述待检测视频的活体检测结果。

Description

活体检测方法、装置、电子设备、存储介质及程序产品

相关申请的交叉引用

本专利申请要求于2019年10月31日提交的、申请号为201911063398.2、发明名称为“活体检测方法、装置、电子设备及存储介质”的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本公开涉及图像处理技术领域，具体而言，涉及活体检测方法、装置、电子设备、存储介质及程序产品。

背景技术

人脸识别技术被应用于身份验证时，首先通过图像采集设备实时获取用户的人脸照片，然后将实时获取的人脸照片与预存的人脸照片进行比对，如果比对一致，则身份验证通过。

发明内容

有鉴于此，本公开至少提供一种活体检测方法、装置、电子设备及存储介质，能够提升活体检测过程中的检测效率。

第一方面，本公开可选实现方式还提供一种活体检测方法，包括：基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从所述待检测视频中确定多帧目标人脸图像；基于所述多帧目标人脸图像，确定所述待检测视频的活体检测结果。

第二方面，本公开可选实现方式提供一种活体检测装置，包括：获取单元，用于基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从所述待检测视频中确定多帧目标人脸图像；检测单元，用于基于所述多帧目标人脸图像，确定所述待检测视频的活体检测结果。

第三方面，本公开可选实现方式还提供一种电子设备，处理器、存储有所述处理器可执行的机器可读指令的存储器，所述机器可读指令被所述处理器执行时，促使所述处理器执行上述第一方面所述的活体检测方法。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被电子设备运行时，促使所述电子设备执行上述第一方面所述的活体检测方法。

第五方面，本公开可选实现方式还提供一种计算机程序产品，包括机器可执行指令，所述机器可执行指令被电子设备读取并执行时，促使所述电子设备执行上述第一方面所述的活体检测方法。

本公开基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从待检测视频中提取多帧目标人脸图像，然后基于多帧目标人脸图像，确定待检测视频的活体检测结果，利用用户的多帧差别较大的人脸图像来静默式地检测用户是否为活体，检测效率更高。

附图说明

图1示出了本公开实施例所提供的一种活体检测方法的流程图。

图2A示出了本公开实施例所提供的一种从待检测视频中提取预设数量的目标人脸图像的方法的流程图。

图2B示出了本公开另一实施例提供的一种从待检测视频中提取预设数量的目标人脸图像的方法的流程图。

图3A示出了本公开实施例所提供得到每帧目标人脸图像的特征提取结果的过程的流程图。

图3B示出了本公开实施例所提供将所述多帧目标人脸图像的特征提取结果进行特征融合处理得到第一融合特征数据的过程的流程图。

图3C示出了本公开实施例所提供的一种活体检测方法中，基于多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果的过程。

图4A示出了本公开实施例所提供的一种对差分级联图像进行特征提取的方式的流程图。

图4B示出了本公开实施例所提供的一种活体检测方法中，基于多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果的过程。

图4C示出了本公开实施例所提供的对差分级联图像的特征提取结果进行特征融合的过程的流程图。

图5示出了本公开另一实施例所提供的一种活体检测方法的流程图。

图6A示出了本公开实施例所提供的一种活体检测装置的示意图。

图6B示出了本公开实施例所提供的一种电子设备的示意图。

图7示出本公开实施例提供的活体检测方法应用过程的流程图。

具体实施方式

为使本公开可选实现方式的目的、技术方案和优点更加清楚，下面将结合本公开可选实现方式中附图，对本公开可选实现方式中的技术方案进行清楚、完整地描述，显然，所描述的可选实现方式仅仅是本公开一部分可选实现方式，而不是全部的可选实现方式。通常在此处附图中描述和示出的本公开可选实现方式的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的可选实现方式的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定可选实现方式。基于本公开的可选实现方式，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他可选实现方式，都属于本公开保护的范围。

当前在基于图像识别的方法进行人脸活体检测的时候，为了在人脸识别时验证待检测用户是否为活体，通常需要待检测用户做出某些指定的动作。以银行***对用户进行身份验证为例，需要用户站在终端设备的摄像头前边，并按照终端设备中的提示做出某种指定的表情动作。在用户做出指定动作的时候，摄像头获取人脸视频，然后基于获取的人脸视频检测用户是否做出指定动作，并检测做出指定动作的用户是否为合法用户。若该用户是合法用户，则身份验证通过。这种活体检测方式通常会在终端设备与用户的交互过程中耗费大量的时间，导致检测效率较低。

本公开提供了一种活体检测方法及装置，能够从待检测视频中提取多帧目标人脸图像，然后基于多帧目标人脸图像中每帧目标人脸图像的特征提取结果得到第一检测结果，并基于多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像得到第二检测结果；然后基于第一检测结果和第二检测结果，确定待检测视频的活体检测结果。在该方法中，不需要用户做出任何的指定动作，而是利用用户的多帧差别较大的人脸图像来静默式地来检测用户是否为活体，检测效率更高。

同时，若非法登录者通过翻拍屏幕获得的人脸视频试图进行欺骗，则由于通过翻拍所获得的图像会丢失大量原始图像的图像信息，由于图像信息的丢失造成无法检测到用户外表细微变化，进而可以判断出不是活体，因此本申请提供的方法能够有效抵御屏幕翻拍的攻击手段。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本可选实现方式进行理解，首先对本公开实施例所公开的一种活体检测方法进行详细介绍，本公开实施例所提供的活体检测方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该活体检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为终端设备为例对本公开可选实现方式提供的活体检测方法加以说明。

参见图1所示，为本公开实施例提供的活体检测方法的流程图，方法包括步骤S101-S104。

S101：从获取到的待检测视频中提取多帧目标人脸图像。

S102：基于所述多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果。

S103：基于所述多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果。

S104：基于所述第一检测结果和所述第二检测结果，确定所述待检测视频的活体检测结果。

其中，S102和S103无执行的先后顺序。下面分别对上述S101-S104加以详细说明。

I：在上述步骤S101中，在终端设备中安装有图像获取装置，通过该图像获取装置能够即时获取原始检测视频。在原始检测视频的每帧图像中，包括有人脸。可以将原始检测视频作为待检测视频；也可以对原始检测视频中包括的人脸部位进行图像截取，以获得待检测视频。

为了提升检测精度，检测视频的视频时长可以在预设时长阈值以上，该预设时长范围可以根据实际需要进行具体设定，例如该预设时长阈值为2秒、3秒、4秒等。

待检测视频中包括的人脸图像的帧数，大于需要提取的目标人脸图像的帧数。目标人脸检测图像的帧数，可以是固定的，也可以是根据待检测视频的视频长度来确定的。

在得到待检测视频后，要从待检测视频中提取多帧目标人脸图像。示例性的，在本公开一可选实现方式中，例如基于待检测视频中包括的多帧人脸图像之间的相似度，从所述待检测视频中确定所述多帧目标人脸图像。在基于待检测视频中包括的多帧人脸图像之间的相似度，确定多帧目标人脸图像时，多帧目标人脸图像满足下述两个要求中的至少一种。

要求一、多帧目标人脸图像中每两帧相邻的目标人脸图像之间的相似度低于第一数值。例如，可以将待检测视频中任一帧人脸图像作为基准图像，分别确定其余的各帧人脸图像与基准图像之间的相似度，并从中取相似度低于第一数值的每帧人脸图像作为目标人脸图像中的一帧。其中，第一数值可以是预设的一个数值。这样，所得到的多张目标人脸图像之间具有较大差别，进而能够以较高精度得到检测结果。

要求二、从所述待检测视频中确定所述多帧目标人脸图像中的第一目标人脸图像；基于所述第一目标人脸图像，从所述待检测视频的多帧连续人脸图像中确定第二目标人脸图像，其中，所述第二目标人脸图像与所述第一目标人脸图像之间的相似度满足预设的相似度要求。相似度要求可以包括：所述第二目标人脸图像为所述多帧连续的人脸图像中与所述第一目标人脸图像之间的相似度最小的人脸图像。这样，所得到的多张目标人脸图像之间具有较大差别，进而能够以较高精度得到检测结果。

在一些例子中，可以采用下述方式确定多帧目标人脸图像中的第一目标人脸图像：将所述待检测视频划分为多个片段，其中，每个片段包括一定数量的连续的人脸图像；从所述多个片段的第一片段中选取第一目标人脸图像。并基于所述第一目标人脸图像，从所述多个片段的每个片段中确定第二目标人脸图像。

通过划分多个片段的方式来确定目标人脸图像，能够将目标人脸图像分散到整段待检测视频，进而更好的捕捉用户在待检测视频持续时长内表情的变化。

具体的实现过程例如下述图2A所示。图2A为本公开实施例提供的一种从待检测视频中提取预设数量的目标人脸图像的方法的流程图，包括以下步骤。

S201：按照待检测视频中各帧人脸图像对应的时间戳的先后顺序，将待检测视频中包括的人脸图像依级划分为N个图像组；其中，N＝预设数量-1。这里，N个图像组中，不同图像组中所包括的人脸图像的数量可以相同，也可以不同，具体可以根据实际的需要进行设定。

S202：针对第一个图像组，将该图像组中的第一帧人脸图像确定为第一帧目标人脸图像，并将该第一帧目标人脸图像作为基准人脸图像，获取该图像组中所有人脸图像与该基准人脸图像之间的相似度；将与该基准人脸图像之间的相似度最小的人脸图像确定为该图像组中的第二目标人脸图像。

S203：针对其它每个图像组，将上一个图像组中的第二目标人脸图像作为基准人脸图像，获取该图像组中各帧人脸图像与该基准人脸图像之间的相似度；将与该基准人脸图像之间相似度最小的人脸图像作为该图像组的第二目标人脸图像。

在具体实施中，可以采用但不限于下述两种方式中任一种确定某帧人脸图像与基准人脸图像之间的相似度。可以将该帧人脸图像称为第一人脸图像，将基准人脸图像称为第二人脸图像。

需要说明的是，对于要求一中多帧人脸图像之间的相似度，也可以用这两种方式进行计算。这种情况下，可以将多帧人脸图像中的任一帧人脸图像称为第一人脸图像，将另一帧人脸图像称为第二人脸图像。

方式一、基于所述第一人脸图像中每个像素点的像素值、和所述第二人脸图像中每个像素点的像素值，得到所述第一人脸图像和所述第二人脸图像的人脸差分图像；根据所述人脸差分图像中每个像素点的像素值，得到所述人脸差分图像对应的方差；将所述方差作为所述第一人脸图像和所述第二人脸图像之间的相似度。这里，人脸差分图像中任一像素点M的像素值＝第一人脸图像中像素点M’的像素值-第二人脸图像中像素点M”的像素值。其中，像素点M在人脸差分图像中的位置，像素点M’在该人脸图像中的位置、以及像素点M”在基准人脸图像中的位置一致。得到的方差越大，则该人脸图像与基准人脸图像之间的相似度越小。通过该方法得到的相似度，具有运算简单的特征。

方式二、对第一人脸图像与第二人脸图像分别进行至少一级特征提取，得到第一人脸图像和第二人脸图像分别对应的特征数据；然后计算第一人脸图像和第二人脸图像分别对应的特征数据之间的距离，并将该距离作为第一人脸图像和第二人脸图像之间的相似度。距离越大，则第一人脸图像与第二人脸图像之间的相似度越小。这里，可以采用卷积神经网络对第一人脸图像和第二人脸图像进行特征提取。

例如，待检测视频中的人脸图像有20帧，分别为a1-a20，目标人脸图像的预设数量为5，则按照时间戳的先后顺序，将待检测视频划分为4个分组，分别为：第一组：a1-a5；第二组：a6-a10；第三组：a11-a15；第四组：a16-a20。

针对第一个图像组，以a1作为第一帧目标人脸图像，并将a1作为基准人脸图像，获取a2-a5分别与a1之间的相似度。假设a3与a1之间的相似度最小，则将a3作为该第一个图像组中的第二目标人脸图像。针对第二个图像组，以a3作为基准人脸图像，并获取a6-a10分别与a3之间的相似度。假设a7与a3之间的相似度最小，则将a7作为第二个图像组中的第二目标人脸图像。针对第三个图像组，以a7作为基准人脸图像，并获取a11-a15分别与a7之间的相似度。假设a14与a7之间的相似度最小，则将a14作为第三个图像组中的第二目标人脸图像。针对第四个图像组，以a14作为基准人脸图像，并获取a16-a20分别与a14之间的相似度。假设a19与a14之间的相似度最小，则将a19作为第四个图像组中的第二目标人脸图像。则最终得到的目标人脸图像包括：a1、a3、a7、a14、a19共五帧。

在一些例子中，从待检测视频中选取第一目标人脸图像；然后将其余的其他人脸图像划分为多个片段，并基于第一目标人脸图像，从多个片段中根据该第一目标人脸图像确定第二目标人脸图像。

具体的实现过程例如下述图2B所示。图2B为本公开另一实施例提供的一种从待检测视频中提取预设数量的目标人脸图像的方法的流程图，包括以下步骤。

S211：将待检测视频中的第一帧人脸图像确定为第一帧目标人脸图像。

S212：按照待检测视频中各帧人脸图像对应的时间戳的先后顺序，将待检测视频中包括的除第一帧目标人脸图像外的人脸图像依级划分为N个图像组；其中，N＝预设数量-1。

S213：针对第一个图像组，将第一帧目标人脸图像作为基准人脸图像，获取该图像组中所有人脸图像与该基准人脸图像之间的相似度；将与该基准人脸图像之间的相似度最小的人脸图像确定为该第一个图像组中的第二目标人脸图像。

S214：针对其它每个图像组，将上一个图像组中的第二目标人脸图像作为基准人脸图像，获取该图像组中各帧人脸图像与该基准人脸图像之间的相似度；将与该基准人脸图像之间相似度最小的人脸图像作为该图像组的第二目标人脸图像。

这里，人脸图像和基准人脸图像之间的相似度的确定方式，与上述图2A中的确定方式类似，在此不再赘述。

例如：待检测视频中的人脸图像有20帧，分别为a1-a20，目标人脸图像的预设数量为5，将a1作为第一帧目标人脸图像，则按照时间戳的先后顺序，将a2-a20划分为4个分组，分别为：第一组：a2-a6；第二组：a7-a11；第三组：a12-a16；第四组：a17-a20。

针对第一个图像组，将a1作为基准人脸图像，获取a2-a6分别与a1之间的相似度。假设a4与a1之间的相似度最小，则将a4作为该第一个图像组中的第二目标人脸图像。针对第二个图像组，以a4作为基准人脸图像，并获取a7-a11分别与a4之间的相似度。假设a10与a4之间的相似度最小，则将a10作为第二个图像组中的第二目标人脸图像。针对第三个图像组，以a10作为基准人脸图像，并获取a12-a16分别与a10之间的相似度。假设a13与a10之间的相似度最小，则将a13作为第三个图像组中的第二目标人脸图像。针对第四个图像组，以a13作为基准人脸图像，并获取a17-a20分别与a13之间的相似度。假设a19与a13之间的相似度最小，则将a19作为第四个图像组中的第二目标人脸图像。则最终得到的目标人脸图像包括：a1、a4、a10、a13、a19共五帧。

另外，在本公开一些例子中，为了避免由于用户整体发生位移，例如头部位置、方向变化对人体外表细微变化所造成的干扰，在从待检测视频中提取预设数量的目标人脸图像之前，活体检测方法还包括：获取所述待检测视频包括的多帧人脸图像中每帧人脸图像的关键点信息；基于所述多帧人脸图像中每帧人脸图像的关键点信息，对所述多帧人脸图像进行对齐处理，得到对齐处理后的多帧人脸图像。

例如，确定待检测人脸视频中的多帧人脸图像中，每帧人脸图像中的至少三个目标关键点的关键点位置；基于各帧人脸图像中的目标关键点的关键点位置，以对应时间戳最早的人脸图像作为基准图像，对除基准图像外的其他各帧人脸图像进行关键点对齐处理，得到与所述其他各帧人脸图像分别对应的对齐人脸图像。

这里，可以将待检测视频中的多帧人脸图像依级输入至预先训练的人脸关键点检测模型中，得到每帧人脸图像中各个目标关键点的关键点位置，然后基于得到的目标关键点的关键点位置，以第一帧人脸图像为基准图像，对除第一帧人脸图像外的其他人脸图像进行对齐处理，使得人脸在不同人脸图像中的位置、角度均保持一致。避免头部位置、方向变化对人体人脸细微变化造成的干扰。

在该种情况下，基于所述获取到的待检测视频中包括的所述多帧人脸图像之间的相似度，从所述待检测视频中确定多帧目标人脸图像，包括：基于所述对齐处理后的多帧人脸图像中之间的相似度，从所述对齐处理后的多帧人脸图像中确定所述多帧目标人脸图像。这里确定目标人脸图像的方式，与上述方式类似，在此不再赘述。

Ⅱ：在上述步骤S102中，可以将所述多帧目标人脸图像的各自特征提取结果进行特征融合处理，得到第一融合特征数据；基于所述第一融合特征数据，得到所述第一检测结果。

通过对多帧目标人脸图像进行多维度的特征提取和时序上的特征融合，使得各帧目标人脸图像对应的特征数据中，包含了人脸细微变化的特点，进而在不需要用户做出任何指定动作的前提下，进行精确的活体检测。

首先，对获取每帧目标人脸图像的特征提取结果的具体方式加以说明。

图3A为本公开实施例提供得到每帧目标人脸图像的特征提取结果的过程的流程图，包括以下步骤。

S301：对所述目标人脸图像进行多级特征提取处理，得到所述多级特征提取处理中每级第一特征提取处理分别对应的第一初始特征数据。

此处，可以将目标人脸图像输入至预先训练的第一卷积神经网络中，对目标人脸图像进行多级的第一特征提取处理。

一种可选实现方式中，该第一卷积神经网络中包括多个卷积层；多个卷积层依级相连，任一卷积层的输出，为该卷积层的下一个卷积层的输入。且每个卷积层的输出，作为与该卷积层对应的第一中间特征数据。

另一种可选实现方式中，在多层卷积层之间，还可以设置池化层、全连接层等；例如在每个卷积层之后连接一池化层，并在池化层后连接一全连接层，使得卷积层、池化层、和全连接层，构成一级进行第一特征提取处理的网络结构。

第一卷积神经网络的具体结构，可以根据实际需要进行具体设置，在此不再赘述。

第一卷积神经网络中卷积层的数量与进行第一特征提取处理的级数一致。

S302：针对每级所述第一特征提取处理，根据该级第一特征提取处理的第一初始特征数据、与该级第一特征提取处理后续的至少一级第一特征提取处理的第一初始特征数据进行融合处理，得到该级第一特征提取处理对应的第一中间特征数据，其中，所述目标人脸图像的特征提取结果包括所述多级第一特征提取处理中每级第一特征提取处理分别对应的第一中间特征数据。

这样，使得每一级第一特征提取处理得到更丰富的人脸特征，从而最终得到更高的检测精度。

此处，可以采用下述方式得到任一级第一特征提取处理对应的第一中间特征数据：对该级第一特征提取处理的第一初始特征数据与该级第一特征提取处理的下级第一特征提取处理对应的第一中间特征数据进行融合处理，得到所述该级第一特征提取处理对应的第一中间特征数据，其中，所述下级第一特征提取处理对应的第一中间特征数据是基于所述下级第一特征提取处理的第一初始特征数据得到的。

具体地，针对除最后一级外的其他每级第一特征提取处理，基于该级第一特征提取处理得到的第一初始特征数据，以及下一级第一特征提取处理得到的第一中间特征数据，得到与该级第一特征提取处理对应的第一中间特征数据；针对最后一级第一特征提取处理，将最后一级第一特征提取处理得到的第一初始特征数据，确定为该最后一级第一特征提取处理对应的第一中间特征数据。

这里，可以采用下述方式得到与该级第一特征提取处理对应的第一中间特征数据：对该级第一特征提取处理的下级第一特征提取处理对应的第一中间特征数据进行上采样，得到该级第一特征提取处理对应的上采样数据；融合该级第一特征提取处理对应的上采样数据和第一初始特征数据，得到该级第一特征提取处理对应的第一中间特征数据。

将深层特征提取处理的特征调整通道数后进行上采样，和浅层特征提取处理的特征相加，从而使得深层特征能够向浅层特征流动，因此丰富了浅层特征提取处理提取到的信息，增加了检测精度。

例如，对目标人脸图像进行5级第一特征提取处理。5级特征提取处理得到的第一初始特征数据分别为：V1、V2、V3、V4以及V5。

针对第5级第一特征提取处理，将V5作为该第5级第一特征提取处理对应的第一中间特征数据M5。针对第4级第一特征提取处理，将第5级第一特征提取处理得到的第一中间特征数据M5进行上采样处理，得到第4级第一特征提取处理对应的上采样数据M5’。基于V4以及M5’生成第4级第一特征提取处理对应的第一中间特征数据M4。

类似的，可以得到第3级第一特征提取处理对应的第一中间特征数据M3。可以得到第2级第一特征提取处理对应的第一中间特征数据M2。

针对第1级第一特征提取处理，将第2级第一特征提取处理得到的第一中间特征数据M2进行上采样处理，得到第1级第一特征提取处理对应的上采样数据M2’。基于V1以及M2’生成第1级第一特征提取处理对应的第一中间特征数据M1。

可以采用下述方式融合该级第一特征提取处理对应的上采样数据和第一初始特征数据，得到该级第一特征提取处理对应的第一中间特征数据：将所述上采样数据和所述第一初始特征数据相加。这里，相加是指将上采样数据中，每一个数据的数据值，与第一初始特征数据中对应位置数据的数据值相加。

对下一级第一特征提取处理对应的第一中间特征数据进行上采样后，得到的上采样数据和本级第一特征提取处理对应的第一初始特征数据的维度相同，在将上采样数据和第一初始特征数据相加后，得到的第一中间特征数据的维度，也与本级第一特征提取处理对应的第一初始特征数据的维度相同。

在一些例子中，每一级第一特征提取处理对应的第一初始特征数据的维度和卷积神经网络各级的网络设置相关，本申请对此不作限制。

另外一种可选实现方式中，也可以将上采样数据和第一初始特征数据进行拼接。

例如上采样数据、和第一初始特征数据的维度均为m*n*f，将两者进行纵向拼接后，得到的第一中间特征数据的维度为：2m*n*f。将两者进行横向拼接后，得到的第一中间特征数据的维度为：m*2n*f。

下面，对将所述多帧目标人脸图像的特征提取结果进行特征融合处理，得到第一融合特征数据的过程加以详细说明。

图3B为本公开实施例提供将所述多帧目标人脸图像的特征提取结果进行特征融合处理得到第一融合特征数据的过程的流程图，包括以下步骤。

S311：针对每级第一特征提取处理，对所述多帧目标人脸图像在该级第一特征提取处理中分别对应的第一中间特征数据进行融合处理，得到该级第一特征提取处理对应的中间融合数据。

这里，可以采用下述方式得到每级第一特征提取处理对应的中间融合数据：基于所述多帧目标人脸图像在该级第一特征提取处理中分别对应的第一中间特征数据，得到与该级第一特征提取处理对应的特征序列；将所述特征序列输入到循环神经网络进行融合处理，得到该级第一特征提取处理对应的中间融合数据。

通过将各目标人脸图像进行空间变化上的特征融合，能够更好的提取到人脸随时间变化而发生细微变化的特征，从而增加活体检测的精度。

这里，循环神经网络例如包括：长短期记忆网络(Long Short-Term Memory，LSTM)、循环神经网络(Recurrent Neural Networks，RNN)、门控循环单元(Gated Recurrent Unit，GRU)中一种或者多种。

若第一特征提取处理有n级，则最终能够得到n个中间融合数据。

在另一可选实现方式中，基于所述多帧目标人脸图像在该级第一特征提取处理中分别对应的第一中间特征数据，得到与该级第一特征提取处理对应的特征序列之前，还包括：针对所述多帧目标人脸图像中的每帧目标人脸图像在该级第一特征提取处理中对应的第一中间特征数据进行全局平均池化处理，得到所述多帧目标人脸图像在该级第一特征提取处理分别对应的第二中间特征数据；所述基于所述多帧目标人脸图像在该级第一特征提取处理中分别对应的第一中间特征数据，得到与该级第一特征提取处理对应的特征序列，具体为：按照所述多帧目标人脸图像的时间顺序，基于所述多帧目标人脸图像在该级第一特征提取处理分别对应的第二中间特征数据，得到所述特征序列。

这里，全局平均池化，能够将三维特征数据转换为二维特征数据。从而将第一中间特征数据进行维度上的转化，简化后续的处理过程。

若某一目标人脸图像在某级第一特征提取处理中，得到的第一中间特征数据的维度为7*7*128，其可以理解为将128个7*7的二维矩阵叠加在一起。在对该第一中间特征数据进行全局平均池化时，针对每一个7*7的二维矩阵，计算该二维矩阵中各个元素的值的均值。最终，能够得到128个均值，将128个均值作为第二中间特征数据。

例如目标人脸图像分别为：b1-b5。每帧目标人脸图像在某一级第一特征提取处理对应的第二中间特征数据分别为：P1、P2、P3、P4以及P5，则由该5帧目标人脸图像的第二中间特征数据得到的该级第一特征提取处理对应的特征序列为：(P1，P2，P3，P4，P5)。

针对任一级第一特征提取处理，在得到各帧目标人脸图像在该级第一特征提取处理分别对应的第二中间特征数据后，基于各帧目标人脸图像的时间顺序，排列所述多帧目标人脸图像在该级第一特征提取处理分别对应的第二中间特征数据，可以得到所述特征序列。

在得到各级第一特征提取处理分别对应的将与该级第一特征提取处理对应的特征序列后，将特征序列分别输入至对应的循环神经网络模型中，得到与各级第一特征提取处理对应的中间融合数据。

312：基于所述多级第一特征提取处理分别对应的中间融合数据，得到所述第一融合特征数据。

多层级提取目标人脸图像中的特征，可以使得最终得到的目标人脸图像的特征数据包含有更加丰富的信息，从而提升活体检测的精度。

在一个例子中，可以将各级第一特征提取处理分别对应的中间融合数据进行拼接，得到统一表征目标人脸图像的第一融合特征数据。在另一个例子中，也可以将所述多级第一特征提取处理分别对应的中间融合数据进行拼接后，进行全连接处理，得到所述第一融合特征数据。

进一步将各个中间融合数据进行融合，使得第一融合特征数据受到每级第一特征提取处理分别对应的中间融合数据的影响，从而使得所提取出来的第一融合特征数据能够更好的表征多帧目标人脸图像的特征。

在得到第一融合特征数据后，可以将第一融合特征数据输入至第一分类器，得到第一检测结果。第一分类器例如为softmax分类器。

如图3C所示，提供一种基于多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果的示例，在该示例中，对某一帧目标人脸图像进行5级特征提取处理，得到的第一初始特征数据分别为：V1、V2、V3、V4以及V5。

基于第一初始特征数据V5生成第五级第一特征提取处理的第一中间特征数据M5。

对第一中间特征数据M5进行上采样，得到第四级第一特征提取处理的上采样数据M5’。将第四级第一特征提取处理的第一初始特征数据V4和上采样数据M5’相加，得到第四级第一特征提取处理的第一中间特征数据M4。对第一中间特征数据M4进行上采样，得到第三级第一特征提取处理的上采样数据M4’。将第三级第一特征提取处理的第一初始特征数据V3和上采样数据M4’相加，得到第三级第一特征提取处理的第一中间特征数据M3。对第一中间特征数据M3进行上采样，得到第二级第一特征提取处理的上采样数据M3’。将第二级第一特征提取处理的第一初始特征数据V2和上采样数据M3’相加，得到第二级第一特征提取处理的第一中间特征数据M2。对第一中间特征数据M2进行上采样，得到第一级第一特征提取处理的上采样数据M2’；将第一级第一特征提取处理的第一初始特征数据V1和上采样数据M2’相加，得到第一级第一特征提取处理的第一中间特征数据M1。将得到的第一中间特征数据M1、M2、M3、M4以及M5作为对该帧目标人脸图像进行特征提取后，得到的特征提取结果。

然后，针对每帧目标人脸图像，将该目标人脸图像在五级第一特征提取处理分别对应的第一中间特征数据进行平均池化，得到该帧目标人脸图像，在五级第一特征提取处理下，分别对应的第二中间特征数据G1、G2、G3、G4以及G5。

假设目标人脸图像有5帧，按照时间戳的先后顺序依次为a1-a5，第一帧目标人脸图像a1在五级第一特征提取处理下分别对应的第二中间特征数据为：G11、G12、G13、G14、G15；第二帧目标人脸图像a2在五级第一特征提取处理下分别对应的第二中间特征数据为：G21、G22、G23、G24、G25；第三帧目标人脸图像a3在五级第一特征提取处理下分别对应的第二中间特征数据为：G31、G32、G33、G34、G35；第四帧目标人脸图像a4在五级第一特征提取处理下分别对应的第二中间特征数据为：G41、G42、G43、G44、G45；第五帧目标人脸图像a5在五级第一特征提取处理下分别对应的第二中间特征数据为：G51、G52、G53、G54、G55。

那么，第一级特征提取处理对应的特征序列为：(G11，G21，G31，G41，G51)。第二级特征提取处理对应的特征序列为：(G12，G22，G32，G42，G52)。第三级特征提取处理对应的特征序列为：(G13，G23，G33，G43，G53)。第四级特征提取处理对应的特征序列为：(G14，G24，G34，G44，G54)。第五级特征提取处理对应的特征序列为：(G15，G25，G35，G45，G55)。

然后将特征序列(G11，G21，G31，G41，G51)输入至与第一级第一特征提取处理对应的LSTM网络，得到与第一级第一特征提取处理对应的中间融合数据R1。将特征序列(G12，G22，G32，G42，G52)输入至与第二级第一特征提取处理对应的LSTM网络，得到与第二级第一特征提取处理对应的中间融合数据R2。将特征序列(G13，G23，G33，G43，G53)输入至与第三级第一特征提取处理对应的LSTM网络，得到与第三级第一特征提取处理对应的中间融合数据R3。将特征序列(G14，G24，G34，G44，G54)输入至与第四级第一特征提取处理对应的LSTM网络，得到与第四级第一特征提取处理对应的中间融合数据R4。将特征序列(G15，G25，G35，G45，G55)输入至与第五级第一特征提取处理对应的LSTM网络，得到与第二级第一特征提取处理对应的中间融合数据R5。

将中间融合数据R1、R2、R3、R4以及R5拼接后，传入全连接层，进行全连接处理，得到第一融合特征数据。然后将第一融合特征数据传入至第一分类器，得到第一检测结果。

Ⅲ：在上述步骤S103中，可以采用下述方式基于所述多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果。

对所述多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像进行级联处理，得到差分级联图像；基于所述差分级联图像，得到所述第二检测结果。

在多帧差分级联图像中，能够更好的提取变化特征，从而提升第二检测结果的精度。

具体地，每两帧相邻的目标人脸图像的差分图像的获取方式，与上述图2A中方式一的描述类似，在此不再赘述。

将差分图像进行级联处理时，使差分图像进行颜色通道上的级联。例如，若差分图像为三通道图像，则将两张差分图像级联后，得到的差分级联图像为六通道的图像。

在具体实施中，不同的差分图像的颜色通道数量一致，像素点数量也一致。

例如，若差分图像的颜色通道数量为3，像素点数量为256*1024，则差分图像的表示向量为：256*1024*3。其中，该表示向量中任一元素Aijk的元素值，为像素点Aij’在第k个颜色通道的像素值。

若差分图像有s个，则将s个差分图像进行级联，得到差分级联图像的维度为：256*1024*(3×s)。

在一种可选实现方式中，可以采用下述方式基于差分级联图像，得到第二检测结果：对所述差分级联图像进行特征提取处理，得到所述差分级联图像的特征提取结果；对所述差分级联图像的特征提取结果进行特征融合，得到第二融合特征数据；基于所述第二融合特征数据，得到所述第二检测结果。

下面先通过下述图4A对差分级联图像进行特征提取处理的具体过程加以详细描述。图4为本公开实施例提供一种对差分级联图像进行特征提取的方式的流程图，包括以下步骤。

S401：对所述差分级联图像进行多级第二特征提取处理，得到与每级第二特征提取处理分别对应的第二初始特征数据。

此处，可以将差分级联图像输入至预先训练的第二卷积神经网络中，对差分级联图像进行多级第二特征提取处理。该第二卷积神经网络与上述第一卷积神经网路类似。需要注意的是，第二卷积神经网络和上述第一卷积神经网络的网络结构可以相同，也可以不同；在两者结构相同的情况下，网络参数不同。第一特征提取处理的级数，与第二特征提取处理的级数可以相同，也可以不同。

S402：基于多级第二特征提取处理分别对应的第二初始特征数据，得到所述差分级联图像的特征提取结果。

对差分级联图像进行多级第二特征提取处理，可以增加特征提取的感受野，丰富差分级联图像中的信息。

示例性的，可以采用下述方式基于多级第二特征提取处理分别对应的第二初始特征数据，得到所述差分级联图像的特征提取结果：针对每级第二特征提取处理，对该级第二特征提取处理的第二初始特征数据，与该级第二特征提取处理之前的至少一级第二特征提取处理的第二初始特征数据进行融合处理，得到该级第二特征提取处理对应的第三中间特征数据；所述差分级联图像的特征提取结果，包括所述多级第二特征提取处理分别对应的第三中间特征数据。

这样，每级第二特征提取处理得到的信息更加丰富，这些信息能够更好的表征差分图像中的变化信息，以提升第二检测结果的精度。

此处，对任一级第二特征提取处理的第二初始特征数据，与该级第二特征提取处理之前的至少一级第二特征提取处理的第二初始特征数据进行融合处理的具体方式可以为：对该级第二特征提取处理的上级第二特征提取处理的第二初始特征数据进行下采样，得到该级第二特征提取处理对应的下采样数据；对该级第二特征提取处理对应的下采样数据和所述第二初始特征数据进行融合处理，得到该级第二特征提取处理对应的第三中间特征数据。

将多级第二特征提取处理得到的信息，由上级第二特征提取处理，向下级第二特征提取处理流动，使得每级第二特征提取处理得到的信息更加丰富。

具体地：针对第一级第二特征提取处理，将第一级第二特征提取处理得到的第二初始特征数据，确定为该级第二特征提取处理对应的第三中间特征数据。

针对其他各级第二特征提取处理，基于该级第二特征提取处理得到的第二初始特征数据，以及上一级第二特征提取处理得到的第三中间特征数据，得到与该级第二特征提取处理对应的第三中间特征数据。

将各级第二特征提取处理分别对应的第三中间特征数据作为对差分级联图像进行特征提取的结果。

可以采用下述方式得到各级第二特征提取处理对应的第三中间特征数据：对上一级第二特征提取处理得到的第三中间特征数据进行下采样，得到该级第二特征提取处理对应的下采样数据，其中，该级第二特征提取处理对应的下采样数据的向量维度，与基于该级第二特征提取处理得到的第二初始特征数据的维度相同；基于该级第二特征提取处理对应的下采样数据以及第二初始特征数据，得到该级第二特征提取处理对应的第三中间特征数据。

例如，图4B所示提供的示例中，对差分级联图像进行5级第二特征提取处理。

5级第二特征提取处理得到的第二初始特征数分别为：W1、W2、W3、W4以及W5。

针对第一级第二特征提取处理，将W1作为该第一级第二特征提取处理对应的第三中间特征数据E1。针对第二级第二特征提取处理，将第一级第二特征提取处理得到的第三中间特征数据E1进行下采样处理，得到第二级第一特征提取处理对应的下采样数据E1’。基于W2以及E1’生成第二级第二特征提取处理对应的第三中间特征数据E2。

类似的，分别得到第三级第二特征提取处理对应的第三中间特征数据E3和第四级第二特征提取处理对应的第三中间特征数据E4。

针对第五级第二特征提取处理，将第四级第二特征提取处理得到的第三中间特征数据E4进行下采样处理，得到第五级第二特征提取处理对应的下采样数据E4’。基于W5以及E4’生成第五级第二特征提取处理对应的第五中间特征数据E5。

下面通过图4C对所述差分级联图像的特征提取结果进行特征融合，得到第二融合特征数据的过程加以详细描述。图4C为本公开实施例提供对差分级联图像的特征提取结果进行特征融合的过程的流程图，包括以下步骤。

S411：对所述差分级联图像在各级第二特征提取处理中的第三中间特征数据分别进行全局平均池化处理，得到所述差分级联图像在各级第二特征提取处理分别对应的第四中间特征数据。

这里，对第三中间特征数据进行全局平均池化的方式与上述对第一中间特征数据进行全局平均池化的方式类似，在此不再赘述。

S412：对所述差分级联图像在各级第二特征提取处理分别对应的第四中间特征数据进行特征融合，得到所述第二融合特征数据。

将第三中间特征数据进行维度上的转化，可以简化后续的处理过程。

可以对各级第二特征提取处理分别对应的第四中间特征数据进行拼接后，输入至全连接网络进行全连接处理，得到第二融合特征数据。在得到第二融合特征数据后，将第二融合特征数据输入至第二分类器，得到第二检测结果。

例如在图4B示出的示例中，第一级第二特征提取处理对应的第三中间特征数据E1经过全局平均池化后，得到对应的第四中间特征数据U1；第二级第二特征提取处理对应的第三中间特征数据E2经过全局平均池化后，得到对应的第四中间特征数据U2；第三级第二特征提取处理对应的第三中间特征数据E3经过全局平均池化后，得到对应的第四中间特征数据U3；第四级第二特征提取处理对应的第三中间特征数据E4经过全局平均池化后，得到对应的第四中间特征数据U4；第五级第二特征提取处理对应的第三中间特征数据E5经过全局平均池化后，得到对应的第四中间特征数据U5。将第四中间特征数据U1、U2、U3、U4以及U5拼接后，输入至全连接层，进行全连接处理，得到第二融合特征数据，然后将第二融合特征数据输入至第二分类器中，得到第二检测结果。

第二分类器例如为softmax分类器。

Ⅳ：在上述S104中，可以采用下述方式确定检测结果：将第一检测结果和第二检测结果进行加权求和，得到目标检测结果。

将第一检测结果和第二检测结果进行加权求和，综合两个检测结果，可以得到更准确的活体检测结果。

第一检测结果、第二检测结果分别对应的权重可以根据实际的需要进行具体设置，这里不做限定。在一个例子中，其各自对应的权重可以相同。

将第一检测结果和第二检测结果进行加权求和后，根据所得到的数值，可以判断出目标检测结果为是否为活体。例如，当该数值大于等于某一阈值时，待检测视频中的人脸为活体的人脸；否则，为非活体的人脸。所述阈值可以在上述第一卷积神经网络和第二卷积神经网络进行训练时获得。例如，可以通过带标注的多个样本训练这两个卷积神经网络，然后得到正样本训练后的加权求和值，以及负样本训练后的加权求和值，从而得到该阈值。

在本公开另一实施例中，还提供一种活体检测方法，该活体检测方法通过活体检测模型实现。活体检测模型包括：第一子模型、第二子模型、以及计算模块；其中第一子模型包括：第一特征提取网络、第一特征融合网络、以及第一分类器；第二子模型包括：第二特征提取网络、第二特征融合网络、及第二分类器；活体检测模型为利用训练样本集中的样本人脸视频训练得到的，样本人脸视频标注有是否为活体的标注信息。

其中：第一特征提取网络用于基于所述多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果。第二特征提取网络用于基于所述多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果。计算模块，用于基于第一检测结果和第二检测结果，得到活体检测结果。

本公开实施例能够从待检测视频中提取多帧目标人脸图像，然后基于多帧目标人脸图像中每帧目标人脸图像的特征提取结果得到第一检测结果，并基于多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像得到第二检测结果；然后基于第一检测结果和第二检测结果，确定待检测视频的活体检测结果。在该方法中，不需要用户做出任何的指定动作，而是利用用户的多帧差别较大的人脸图像来静默式地来检测用户是否为活体，检测效率更高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程得到任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

参见图5所示，本公开另一实施例还提供一种活体检测方法，包括以下步骤。

S501：基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从待检测视频中提取多帧目标人脸图像。

S502：基于多帧目标人脸图像，确定待检测视频的活体检测结果。

步骤S501的具体实现方式请参见上文步骤S101的实现方式，在此不再赘述。

本公开实施例通过待检测视频中提取多帧目标人脸图像，且多帧目标人脸图像中的相邻目标人脸图像之间的相似度低于第一数值，然后基于目标人脸图像，确定待检测视频的活体检测结果，不需要用户做出任何的指定动作，而是利用用户的多帧差别较大的人脸图像来静默式地检测用户是否为活体，检测效率更高。

在一种可能的实施方式中，基于多帧目标人脸图像，确定待检测视频的活体检测结果，包括：基于多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果，和/或基于多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果；基于第一检测结果和/或第二检测结果，确定待检测视频的活体检测结果。

其中，得到第一检测结果和第二检测结果的实现方式可以分别参照上文S102和S103的描述，这里不再赘述。

在一种可能的实现方式中，获取第一检测结果，并将第一检测结果作为目标检测结果，或者，将第一检测结果进行处理后得到目标检测结果。

在另一种可能的实现方式中，获取第二检测结果，并将第二检测结果作为目标检测结果，或者，将第二检测结果进行处理后得到目标检测结果。

在另一种可能的实施方式中，获取第一检测结果和第二检测结果，并基于第一检测结果和第二检测结果，确定针对待检测视频的活体检测结果，例如，将第一检测结果和第二检测结果进行加权求和，得到活体检测结果。

基于类似的构思，本公开实施例中还提供了与活体检测方法对应的活体检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述活体检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图6A所示，为本公开实施例提供的一种活体检测装置的示意图，装置包括：获取单元61和检测单元62。

获取单元61，用于基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从待检测视频中确定多帧目标人脸图像。

检测单元62，用于基于多帧目标人脸图像，确定待检测视频的活体检测结果。

在一些例子中，多帧目标人脸图像中每两帧相邻的目标人脸图像之间的相似度低于第一数值。

在一些例子中，获取单元61还用于：从待检测视频中确定多帧目标人脸图像中的第一目标人脸图像；基于第一目标人脸图像，从待检测视频的多帧连续人脸图像中确定第二目标人脸图像，其中，第二目标人脸图像与第一目标人脸图像之间的相似度满足预设的相似度要求。

在一些例子中，获取单元61还用于：将待检测视频划分为多个片段，其中，每个片段包括一定数量的连续的人脸图像；从多个片段的第一片段中选取第一目标人脸图像；基于第一目标人脸图像，从多个片段的每个片段中确定第二目标人脸图像。

在一些例子中，获取单元61还用于：比较第一片段中的所有人脸图像和第一目标人脸图像的相似度，将相似度最小的人脸图像作为第一片段的第二目标人脸图像；对其他片段中的每个片段，比较该片段中的所有人脸图像和该片段的上一片段的第二目标人脸图像的相似度，将相似度最小的人脸图像作为该片段的第二目标人脸图像，其中，其他片段为多个片段除第一片段外的片段。

在一些例子中，多帧人脸图像之间的相似度是基于以下方式得到的：从多帧人脸图像中选择两帧人脸图像作为第一人脸图像和第二人脸图像；基于第一人脸图像中每个像素点的像素值、和第二人脸图像中每个像素点的像素值，得到第一人脸图像和第二人脸图像的人脸差分图像；根据人脸差分图像中每个像素点的像素值，得到人脸差分图像对应的方差；将方差作为第一人脸图像和第二人脸图像之间的相似度。

在一些例子中，在从获取到的待检测视频中提取多帧目标人脸图像之前，获取单元61还用于：获取待检测视频包括的多帧人脸图像中每帧人脸图像的关键点信息；基于多帧人脸图像中每帧人脸图像的关键点信息，对多帧人脸图像进行对齐处理，得到对齐处理后的多帧人脸图像；基于对齐处理后的多帧人脸图像中之间的相似度，从对齐处理后的多帧人脸图像中确定多帧目标人脸图像。

在一些例子中，检测单元62包括：第一检测模块和/或第二检测模块、以及确定模块；其中，第一检测模块用于基于多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果；第二检测模块用于基于多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果；确定模块用于基于第一检测结果和/或第二检测结果，确定待检测视频的活体检测结果。

在一些例子中，第一检测模块还用于：将多帧目标人脸图像各自的特征提取结果进行特征融合处理，得到第一融合特征数据；基于第一融合特征数据，得到第一检测结果。

在一些例子中，每帧目标人脸图像的特征提取结果包括：对目标人脸图像进行多级第一特征提取处理得到与每级第一特征提取处理分别对应的第一中间特征数据；第一检测模块还用于：针对每级第一特征提取处理，对多帧目标人脸图像在该级第一特征提取处理中分别对应的第一中间特征数据进行融合处理，得到该级第一特征提取处理对应的中间融合数据；基于多级第一特征提取处理分别对应的中间融合数据，得到第一融合特征数据。

在一些例子中，第一检测模块还用于：基于多帧目标人脸图像在该级第一特征提取处理中分别对应的第一中间特征数据，得到与该级第一特征提取处理对应的特征序列；将特征序列输入到循环神经网络进行融合处理，得到该级第一特征提取处理对应的中间融合数据。

在一些例子中，第一检测模块还用于：针对多帧目标人脸图像中的每帧目标人脸图像在该级第一特征提取处理中对应的第一中间特征数据进行全局平均池化处理，得到多帧目标人脸图像在该级第一特征提取处理分别对应的第二中间特征数据；按照多帧目标人脸图像的时间顺序，排列多帧目标人脸图像在该级第一特征提取处理分别对应的第二中间特征数据，得到特征序列。

在一些例子中，第一检测模块还用于：将多级第一特征提取处理分别对应的中间融合数据进行拼接后，进行全连接处理，得到第一融合特征数据。

在一些例子中，第一检测模块用于采用下述方式得到每帧目标人脸图像的特征提取结果：对目标人脸图像进行多级特征提取处理，得到多级特征提取处理中每级第一特征提取处理分别对应的第一初始特征数据；针对每级第一特征提取处理，根据该级第一特征提取处理的第一初始特征数据、与该级第一特征提取处理后续的至少一级第一特征提取处理的第一初始特征数据进行融合处理，得到该级第一特征提取处理对应的第一中间特征数据，其中，目标人脸图像的特征提取结果包括多级第一特征提取处理中每级第一特征提取处理分别对应的第一中间特征数据。

在一些例子中，第一检测模块还用于：对该级第一特征提取处理的第一初始特征数据与该级第一特征提取处理的下级第一特征提取处理对应的第一中间特征数据进行融合处理，得到该级第一特征提取处理对应的第一中间特征数据，其中，下级第一特征提取处理对应的第一中间特征数据是基于下级第一特征提取处理的第一初始特征数据得到的。

在一些例子中，第一检测模块还用于：对该级第一特征提取处理的下级第一特征提取处理对应的第一中间特征数据进行上采样，得到该级第一特征提取处理对应的上采样数据；融合该级第一特征提取处理对应的上采样数据和该级第一特征提取处理对应的第一初始特征数据，得到该级第一特征提取处理对应的第一中间特征数据。

在一些例子中，第二检测模块还用于：对多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像进行级联处理，得到差分级联图像；基于差分级联图像，得到第二检测结果。

在一些例子中，第二检测模块还用于：对差分级联图像进行特征提取处理，得到差分级联图像的特征提取结果；对差分级联图像的特征提取结果进行特征融合，得到第二融合特征数据；基于第二融合特征数据，得到第二检测结果。

在一些例子中，第二检测模块还用于：对差分级联图像进行多级第二特征提取处理，得到与每级第二特征提取处理分别对应的第二初始特征数据；基于多级第二特征提取处理分别对应的第二初始特征数据，得到差分级联图像的特征提取结果。

在一些例子中，第二检测模块还用于：针对每级第二特征提取处理，对该级第二特征提取处理的第二初始特征数据，与该级第二特征提取处理之前的至少一级第二特征提取处理的第二初始特征数据进行融合处理，得到该级第二特征提取处理对应的第三中间特征数据；差分级联图像的特征提取结果，包括多级第二特征提取处理分别对应的第三中间特征数据。

在一些例子中，第二检测模块还用于：对该级第二特征提取处理的上级第二特征提取处理的第二初始特征数据进行下采样，得到该级第二特征提取处理对应的下采样数据；对该级第二特征提取处理对应的下采样数据和该级第二特征提取处理的第二初始特征数据进行融合处理，得到该级第二特征提取处理对应的第三中间特征数据。

在一些例子中，第二检测模块还用于：对差分级联图像在多级第二特征提取处理中各自的第三中间特征数据分别进行全局平均池化处理，得到差分级联图像在多级第二特征提取处理分别对应的第四中间特征数据；对差分级联图像在多级第二特征提取处理分别对应的第四中间特征数据进行特征融合，得到第二融合特征数据。

在一些例子中，第二检测模块还用于：将多级第二特征提取处理分别对应的第四中间特征数据进行拼接后，进行全连接处理，得到第二融合特征数据。

在一些例子中，确定模块还用于：将第一检测结果和第二检测结果进行加权求和，得到活体检测结果。

关于装置中的各模块和/或单元的处理流程、以及各模块和/或单元之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开可选实现方式还提供了一种电子设备600，如图6B所示，为本公开可选实现方式提供的电子设备600结构示意图，包括：处理器610、存储器620；存储器620用于存储处理器可执行指令，包括内存621和外部存储器622。这里的内存621也称内部存储器，用于暂时存放处理器610中的运算数据，以及与硬盘等外部存储器622交换的数据，处理器610通过内存621与外部存储器622进行数据交换。

当电子设备600运行时，机器可读指令被处理器执行，使得处理器610执行以下操作：从获取到的待检测视频中提取多帧目标人脸图像；基于多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果；基于多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果；基于第一检测结果和第二检测结果，确定待检测视频的活体检测结果。

或者执行以下操作：基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从待检测视频中提取多帧目标人脸图像；基于多帧目标人脸图像，确定待检测视频的活体检测结果。

本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法可选实现方式中的活体检测方法的步骤。其中，计算机可读存储介质可以是非易失性存储介质。

另外，参见图7所示，本公开实施例还公开一种将公开实施例提供的活体检测方法进行具体应用的示例。

在该示例中，活体检测方法的执行主体为云端服务器1；云端服务器1与使用端2通信连接。两者的交互过程参见下述步骤。

S701：使用端2将用户视频上传云端服务器1。使用端2将获取的用户视频上传至云端服务器1。

S702：云端服务器1进行人脸关键点检测。云端服务器1在接收到使用端2发送的用户视频后，对用户视频中的各帧图像进行人脸关键点检测。检测失败时，跳转至S703；检测成功时，跳转至S705。

S703：检云端服务器1向使用端2反馈检测失败的原因；此时，检测失败的原因为：未检测到人脸。

使用端2在接收到云端服务器1反馈的检测失败的原因后，执行S704：重新获取用户视频，并跳转至S701。

S705：云端服务器1根据检测到的人脸关键点，对用户视频中的各帧图像进行裁剪，得到待检测视频。

S706：云端服务器1基于人脸关键点对待检测视频中的各帧人脸图像进行对齐处理。

S707：云端服务器1从待检测视频中筛选多帧目标人脸图像。

S708：云端服务器1将多帧目标人脸图像，输入至活体检测模型中的第一子模型；并将每相邻的两帧目标人脸图像之间的差分图像，输入至活体检测模型中的第二子模型，进行检测。

其中，第一子模型，用于基于所述多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果。第二子模型，用于基于所述多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果。

S709：云端服务器1得到活体检测模型输出的第一检测结果和第二检测结果后，根据第一检测结果和第二检测结果，得到活体检测结果。

S710：将活体检测结果反馈至使用端2。

通过上述过程，实现了对从使用端2获取的一段视频的活体检测过程。

本公开可选实现方式所提供的活体检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法可选实现方式中所述的活体检测方法的步骤，具体可参见上述方法可选实现方式，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法可选实现方式中的对应过程，在此不再赘述。在本公开所提供的几个可选实现方式中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置可选实现方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本可选实现方式方案的目的。

另外，在本公开各个可选实现方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干机器可执行指令，用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个可选实现方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述可选实现方式，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述可选实现方式对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述可选实现方式所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开可选实现方式技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

一种活体检测方法，其特征在于，包括：

基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从所述待检测视频中确定多帧目标人脸图像；

基于所述多帧目标人脸图像，确定所述待检测视频的活体检测结果。
根据权利要求1所述的活体检测方法，其特征在于，所述多帧目标人脸图像中每两帧相邻的目标人脸图像之间的相似度低于第一数值。
根据权利要求1或2所述的活体检测方法，其特征在于，从获取到的所述待检测视频中提取所述多帧目标人脸图像，包括：

从所述待检测视频中确定所述多帧目标人脸图像中的第一目标人脸图像；

基于所述第一目标人脸图像，从所述待检测视频的多帧连续人脸图像中确定第二目标人脸图像，其中，所述第二目标人脸图像与所述第一目标人脸图像之间的相似度满足预设的相似度要求。
根据权利要求3所述的活体检测方法，其特征在于，所述方法还包括：

将所述待检测视频划分为多个片段，其中，每个片段包括一定数量的连续的人脸图像；

从所述待检测视频中确定所述多帧目标人脸图像中的所述第一目标人脸图像，包括：

从所述多个片段的第一片段中选取第一目标人脸图像；

基于所述第一目标人脸图像，从所述待检测视频的所述多帧连续人脸图像中确定所述第二目标人脸图像，包括：

基于所述第一目标人脸图像，从所述多个片段的每个片段中确定第二目标人脸图像。
根据权利要求4所述的活体检测方法，其特征在于，从所述多个片段的每个片段中确定所述第二目标人脸图像包括：

比较所述第一片段中的所有人脸图像和所述第一目标人脸图像的相似度，将相似度最小的人脸图像作为所述第一片段的所述第二目标人脸图像；

对其他片段中的每个片段，比较该片段中的所有人脸图像和该片段的上一片段的第二目标人脸图像的相似度，将相似度最小的人脸图像作为该片段的第二目标人脸图像，其中，所述其他片段为所述多个片段除第一片段外的片段。
根据权利要求1-5任一项所述的活体检测方法，其特征在于，所述多帧人脸图像之间的相似度是基于以下方式得到的：

从多帧人脸图像中选择两帧人脸图像作为第一人脸图像和第二人脸图像；

基于所述第一人脸图像中每个像素点的像素值、和所述第二人脸图像中每个像素点的像素值，得到所述第一人脸图像和所述第二人脸图像的人脸差分图像；

根据所述人脸差分图像中每个像素点的像素值，得到所述人脸差分图像对应的方差；

将所述方差作为所述第一人脸图像和所述第二人脸图像之间的所述相似度。
根据权利要求1-6任一项所述的活体检测方法，其特征在于，在从所述获取到的待检测视频中提取所述多帧目标人脸图像之前，还包括：

获取所述待检测视频包括的多帧人脸图像中每帧人脸图像的关键点信息；

基于所述多帧人脸图像中每帧人脸图像的关键点信息，对所述多帧人脸图像进行对齐处理，得到对齐处理后的多帧人脸图像；

基于所述获取到的待检测视频中包括的所述多帧人脸图像之间的相似度，从所述待检测视频中确定所述多帧目标人脸图像，包括：

基于所述对齐处理后的多帧人脸图像中之间的相似度，从所述对齐处理后的多帧人脸图像中确定所述多帧目标人脸图像。
根据权利要求1-7任一项所述的活体检测方法，其特征在于，基于所述多帧目标人脸图像，确定所述待检测视频的所述活体检测结果包括：

基于所述多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果，和/或基于所述多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果；

基于所述第一检测结果和/或所述第二检测结果，确定所述待检测视频的活体检测结果。
根据权利要求8所述的活体检测方法，其特征在于，基于所述多帧目标人脸图像中每帧目标人脸图像的所述特征数据，得到所述第一检测结果，包括：

将所述多帧目标人脸图像各自的特征提取结果进行特征融合处理，得到第一融合特征数据；

基于所述第一融合特征数据，得到所述第一检测结果。
根据权利要求9所述的活体检测方法，其特征在于，每帧所述目标人脸图像的特征提取结果包括：

对所述目标人脸图像进行多级第一特征提取处理得到与每级第一特征提取处理分别对应的第一中间特征数据；

将所述多帧目标人脸图像各自的特征提取结果进行特征融合处理，得到所述第一融合特征数据，包括：

针对每级第一特征提取处理，对所述多帧目标人脸图像在该级第一特征提取处理中分别对应的第一中间特征数据进行融合处理，得到该级第一特征提取处理对应的中间融合数据；

基于所述多级第一特征提取处理分别对应的中间融合数据，得到所述第一融合特征数据。
根据权利要求10所述的活体检测方法，其特征在于，对所述多帧目标人脸图像在该级第一特征提取处理中分别对应的所述第一中间特征数据进行融合处理，得到该级第一特征提取处理对应的所述中间融合数据，包括：

基于所述多帧目标人脸图像在该级第一特征提取处理中分别对应的所述第一中间特征数据，得到与该级第一特征提取处理对应的特征序列；

将所述特征序列输入到循环神经网络进行融合处理，得到该级第一特征提取处理对应的所述中间融合数据。
根据权利要求11所述的活体检测方法，其特征在于，基于所述多帧目标人脸图像在该级第一特征提取处理中分别对应的所述第一中间特征数据，得到与该级第一特征提取处理对应的所述特征序列之前，还包括：

针对所述多帧目标人脸图像中的每帧目标人脸图像在该级第一特征提取处理中对应的第一中间特征数据进行全局平均池化处理，得到所述多帧目标人脸图像在该级第一特征提取处理分别对应的第二中间特征数据；

基于所述多帧目标人脸图像在该级第一特征提取处理中分别对应的所述第一中间特征数据，得到与该级第一特征提取处理对应的所述特征序列，包括：

按照所述多帧目标人脸图像的时间顺序，排列所述多帧目标人脸图像在该级第一特征提取处理分别对应的所述第二中间特征数据，得到所述特征序列。
根据权利要求10至12中任一项所述的活体检测方法，其特征在于，基于所述多级第一特征提取处理对应的所述中间融合数据，得到所述第一融合特征数据，包括：

将所述多级第一特征提取处理分别对应的所述中间融合数据进行拼接后，进行全连接处理，得到所述第一融合特征数据。
根据权利要求8至13中任一项所述的活体检测方法，其特征在于，采用下述方式得到每帧目标人脸图像的特征提取结果：

对所述目标人脸图像进行多级特征提取处理，得到所述多级特征提取处理中每级第一特征提取处理分别对应的第一初始特征数据；

针对每级所述第一特征提取处理，根据该级第一特征提取处理的第一初始特征数据、与该级第一特征提取处理后续的至少一级第一特征提取处理的第一初始特征数据进行融合处理，得到该级第一特征提取处理对应的第一中间特征数据，其中，所述目标人脸图像的特征提取结果包括所述多级第一特征提取处理中每级第一特征提取处理分别对应的第一中间特征数据。
根据权利要求14所述的活体检测方法，其特征在于，根据该级第一特征提取处理的所述第一初始特征数据、与该级第一特征提取处理后续的至少一级第一特征提取处理的所述第一初始特征数据进行融合处理，得到该级第一特征提取处理对应的所述第一中间特征数据，包括：

对该级第一特征提取处理的所述第一初始特征数据与该级第一特征提取处理的下级第一特征提取处理对应的第一中间特征数据进行融合处理，得到所述该级第一特征提取处理对应的所述第一中间特征数据，其中，所述下级第一特征提取处理对应的所述第一中间特征数据是基于所述下级第一特征提取处理的第一初始特征数据得到的。
根据权利要求15所述的活体检测方法，其特征在于，对该级第一特征提取处理的所述第一初始特征数据与该级第一特征提取处理的所述下级第一特征提取处理对应的所述第一中间特征数据进行融合处理，得到所述该级第一特征提取处理对应的所述第一中间特征数据，包括：

对该级第一特征提取处理的下级第一特征提取处理对应的所述第一中间特征数据进行上采样，得到该级第一特征提取处理对应的上采样数据；

融合该级第一特征提取处理对应的所述上采样数据和该级第一特征提取处理对应的所述第一初始特征数据，得到该级第一特征提取处理对应的所述第一中间特征数据。
根据权利要求8-16任一项所述的活体检测方法，其特征在于，基于所述多帧目标人脸图像中每两帧相邻的目标人脸图像的所述差分图像，得到所述第二检测结果，包括：

对所述多帧目标人脸图像中每两帧相邻的目标人脸图像的所述差分图像进行级联处理，得到差分级联图像；

基于所述差分级联图像，得到所述第二检测结果。
根据权利要求17所述的活体检测方法，其特征在于，基于所述差分级联图像，得到所述第二检测结果，包括：

对所述差分级联图像进行特征提取处理，得到所述差分级联图像的特征提取结果；

对所述差分级联图像的所述特征提取结果进行特征融合，得到第二融合特征数据；

基于所述第二融合特征数据，得到所述第二检测结果。
根据权利要求18所述的活体检测方法，其特征在于，对所述差分级联图像进行特征提取处理，得到所述差分级联图像的所述特征提取结果，包括：

对所述差分级联图像进行多级第二特征提取处理，得到与每级第二特征提取处理分别对应的第二初始特征数据；

基于所述多级第二特征提取处理分别对应的所述第二初始特征数据，得到所述差分级联图像的所述特征提取结果。
根据权利要求19所述的活体检测方法，其特征在于，基于所述多级第二特征提取处理分别对应的所述第二初始特征数据，得到所述差分级联图像的所述特征提取结果，包括：

针对每级第二特征提取处理，对该级第二特征提取处理的第二初始特征数据，与该级第二特征提取处理之前的至少一级第二特征提取处理的第二初始特征数据进行融合处理，得到该级第二特征提取处理对应的第三中间特征数据；

所述差分级联图像的特征提取结果，包括所述多级第二特征提取处理分别对应的第三中间特征数据。
根据权利要求20所述的活体检测方法，其特征在于，对该级第二特征提取处理的所述第二初始特征数据，与该级第二特征提取处理之前的至少一级第二特征提取处理的所述第二初始特征数据进行融合处理，得到所述每级第二特征提取处理对应的所述第三中间特征数据，包括：

对该级第二特征提取处理的上级第二特征提取处理的第二初始特征数据进行下采样，得到该级第二特征提取处理对应的下采样数据；

对该级第二特征提取处理对应的所述下采样数据和该级第二特征提取处理的所述第二初始特征数据进行融合处理，得到该级第二特征提取处理对应的所述第三中间特征数据。
根据权利要求20或21所述的活体检测方法，其特征在于，对所述差分级联图像的所述特征提取结果进行特征融合，得到所述第二融合特征数据之前，还包括：

对所述差分级联图像在所述多级第二特征提取处理中各自的第三中间特征数据分别进行全局平均池化处理，得到所述差分级联图像在所述多级第二特征提取处理分别对应的第四中间特征数据；

对所述差分级联图像的所述特征提取结果进行特征融合，得到所述第二融合特征数据，包括：

对所述差分级联图像在所述多级第二特征提取处理分别对应的所述第四中间特征数据进行特征融合，得到所述第二融合特征数据。
根据权利要求22所述的活体检测方法，其特征在于，对所述差分级联图像在所述多级第二特征提取处理分别对应的所述第四中间特征数据进行特征融合，得到所述第二融合特征数据，包括：

将所述多级第二特征提取处理分别对应的所述第四中间特征数据进行拼接后，进行全连接处理，得到所述第二融合特征数据。
根据权利要求8-23任一项所述的活体检测方法，其特征在于，基于所述第一检测结果和所述第二检测结果，确定所述待检测视频的所述活体检测结果，包括：

将所述第一检测结果和所述第二检测结果进行加权求和，得到所述活体检测结果。
一种活体检测装置，其特征在于，包括：

获取单元，用于基于获取到的待检测视频中包括的多帧人脸图像之间的相似度，从所述待检测视频中确定多帧目标人脸图像；

检测单元，用于基于所述多帧目标人脸图像，确定所述待检测视频的活体检测结果。
根据权利要求25所述的活体检测装置，其特征在于，所述检测单元包括：第一检测模块和/或第二检测模块、以及确定模块；其中，

所述第一检测模块，用于基于所述多帧目标人脸图像中每帧目标人脸图像的特征提取结果，得到第一检测结果；

所述第二检测模块，用于基于所述多帧目标人脸图像中每两帧相邻的目标人脸图像的差分图像，得到第二检测结果；

所述确定模块，用于基于所述第一检测结果和/或所述第二检测结果，确定所述待检测视频的活体检测结果。
一种电子设备，其特征在于，包括：处理器、存储有所述处理器可执行的机器可读指令的存储器，其中，所述机器可读指令被所述处理器执行时，促使所述处理器执行如权利要求1至24任一项所述的活体检测方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被电子设备运行时，促使所述电子设备执行如权利要求1至24任一项所述的活体检测方法。
一种计算机程序产品，包括机器可执行指令，其特征在于，所述机器可执行指令被电子设备读取并执行时，促使所述电子设备执行如1至24任一项所述的活体检测方法。