CN108805047B

CN108805047B - 一种活体检测方法、装置、电子设备和计算机可读介质

Info

Publication number: CN108805047B
Application number: CN201810517525.0A
Authority: CN
Inventors: 王鹏; 卢江虎
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2021-06-25
Anticipated expiration: 2038-05-25
Also published as: US10832069B2; CN108805047A; US20190362171A1

Abstract

本发明提供了一种活体检测方法、装置、电子设备和计算机可读介质，包括：获取目标对象的视频图像；在视频图像中提取第一图像和第二图像，其中，第一图像用于表征所述视频图像中的静态信息，第二图像用于表征视频图像中所有像素点的位置变化信息；通对第一图像进行活体分析得到第一分析结果，对第二图像进行活体分析得到第二分析结果，根据第一分析结果和第二分析结果确定目标对象是否为活体。本发明充分利用视频中的静态图像信息和光流信息来进行活体检测，且不需要用户完成张嘴眨眼等多种动作，具有使用简便，精度高、安全度高等优点，进而缓解了传统的活体检测技术安全等级低，以及对使用者的动作难度要求过于复杂的技术问题。

Description

一种活体检测方法、装置、电子设备和计算机可读介质

技术领域

本发明涉及图像处理的技术领域，尤其是涉及一种活体检测方法、装置、电子设备和计算机可读介质。

背景技术

随着人脸识别技术的广泛应用，人脸识别技术的使用安全性也慢慢受到人们的关注。人脸识别技术的一种是基于人脸的活体检测技术。基于人脸的活体检测技术是指通过可以自动判别给定图像或视频中的人脸是来自真实的人还是来自于欺骗人脸(例如，面具、打印照片、屏幕上显示的照片或播放的视频片段等)的技术。基于人脸的活体检测技术是一种重要的防攻击、防欺诈的技术手段，在银行、保险、互联网金融、电子商务等涉及到远程身份认证的行业和场合存在广泛的应用。

现有的基于人脸的活体检测技术大体可以分为两类：静态方法和动态方法。其中，静态方法具有简单、高效的特点，但是静态方法的安全等级并不高。原因在于静态人脸图像容易通过PS、合成软件以及高清屏幕显示照片等方式进行伪造，且随着技术的发展这种伪造方式的技术难度和成本将越来越低。动态方法主要是指各种基于动作的单帧图像的判断，要求使用者在镜头前完成张嘴、眨眼等指定的面部动作。然而，这些面部动作增加了技术实现难度，同时也降低了用户体验。总之，现有的人脸活体判断方法都是基于单帧图像为基础，要么安全等级过低，要么动作难度过于复杂。

发明内容

有鉴于此，本发明的目的在于提供一种活体检测方法、装置、电子设备和计算机可读介质，以缓解传统的活体检测技术安全等级低，以及对使用者的动作难度要求过于复杂的技术问题。

第一方面，本发明实施例提供了一种活体检测方法，包括：获取目标对象的视频图像，所述视频图像包括多个图像帧，每个所述图像帧中包括所述目标对象的脸部信息；在所述视频图像中提取第一图像和第二图像，其中，所述第一图像用于表征所述视频图像中的静态信息，所述第二图像用于表征所述视频图像中所有像素点的位置变化信息；对所述第一图像进行活体分析得到第一分析结果，对所述第二图像进行活体分析得到第二分析结果，根据所述第一分析结果和所述第二分析结果确定所述目标对象是否为活体。

进一步地，在所述视频图像中提取第一图像和第二图像包括：将所述视频图像划分成N个视频图像组，其中，N为大于1的正整数；在每个所述视频图像组中提取一张所述第一图像，以及在每个所述视频图像组中提取M张连续的第二图像，其中，M为大于1的正整数。

进一步地，在每个所述视频图像组中提取M张连续的第二图像包括：在每个所述视频图像组中随机选择M个连续的图像帧；在所述M个连续的图像帧中的每个图像帧中提取一张所述第二图像。

进一步地，所述第二图像包括第一子图像和第二子图像，在所述M个连续的图像帧中的每个图像帧中提取一张所述第二图像包括：在图像帧A_i中提取所述第一子图像，其中，所述第一子图像中包括第一位移信息，所述第一位移信息表示像素点在图像帧A_i-1和所述图像帧A_i中X轴方向的位移信息；在所述图像帧A_i中提取所述第二子图像，其中，所述第二子图像中包括第二位移信息，所述第二位移信息表示所述像素点在所述图像帧A_i-1和所述图像帧A_i中Y轴方向的位移信息；其中，所述图像帧A_i为所述M个连续的图像帧中的第i个图像帧，i依次取1至M。

进一步地，对所述第一图像进行活体分析得到第一分析结果，对所述第二图像进行活体分析得到第二分析结果，根据所述第一分析结果和所述第二分析结果确定所述目标对象是否为活体包括：通过目标活体检测模型中的第一检测模型对所述第一图像进行活体分析，得到所述第一分析结果，其中，所述第一分析结果中包括：所述目标对象为活体的概率和/或所述目标对象不是活体的概率；通过目标活体检测模型中的第二检测模型对所述第二图像进行活体分析，得到所述第二分析结果，其中，所述第二分析结果中包括：所述目标对象为活体的概率和/或所述目标对象不是活体的概率；对所述第一分析结果和所述第二分析结果进行融合，得到目标分析结果，并通过所述目标分析结果确定所述目标对象是否为活体，其中，所述目标分析结果中包括：所述目标对象为活体的概率和/或所述目标对象不是活体的概率。

进一步地，对所述第一分析结果和所述第二分析结果进行融合，得到目标分析结果包括：获取预设权重，其中，所述预设权重包括所述第一分析结果的权重和所述第二分析结果的权重；按照所述预设权重对所述第一分析结果和所述第二分析结果进行融合，得到所述目标分析结果。

进一步地，通过所述目标分析结果确定所述目标对象是否为活体包括：在确定出所述目标分析结果中所述目标对象为活体的概率大于第一阈值的情况下，确定所述目标对象为活体；或者在确定出所述目标分析结果中所述目标对象不是活体的概率大于第二阈值的情况下，确定所述目标对象不是活体。

进一步地，所述方法还包括：获取训练视频集合，其中，所述训练视频集合中包括：第一类视频集合和第二类视频集合，所述第一类视频集合的图像帧中包括活体对象的脸部处于静态时的脸部信息，所述第二类视频集合的图像帧中包括非活体对象的脸部处于静态时的脸部信息；对所述第一类视频集合和所述第二类视频集合进行图像提取，得到第一图像集和第二图像集，其中，所述第一图像集中的图像用于表征所述训练视频集合中训练视频的静态信息，所述第二图像集中的图像用于表征所述训练视频中所有像素点的位置变化信息；利用所述第一图像集和所述第二图像集对原始活体检测模型进行训练，得到所述目标活体检测模型。

进一步地，利用所述第一图像集和所述第二图像集对原始活体检测模型进行训练，得到所述目标活体检测模型包括：利用所述第一图像集对所述原始活体检测模型中的第一原始检测模型进行训练，得到所述目标活体检测模型中的第一检测模型；利用所述第二图像集对所述原始活体检测模型中的第二原始检测模型进行训练，得到所述目标活体检测模型中的第二检测模型。

第二方面，本发明实施例提供了一种活体检测装置，包括：第一获取单元，用于获取目标对象的视频图像，所述视频图像包括多个图像帧，每个所述图像帧中包括所述目标对象的脸部信息；提取单元，用于在所述视频图像中提取第一图像和第二图像，其中，所述第一图像用于表征所述视频图像中的静态信息，所述第二图像用于表征所述视频图像中所有像素点的位置变化信息；分析单元，用于对所述第一图像进行活体分析得到第一分析结果，对所述第二图像进行活体分析得到第二分析结果，根据所述第一分析结果和所述第二分析结果确定所述目标对象是否为活体。

第三方面，本发明实施例提供了一种电子设备，包括存储器、分析器及存储在所述存储器上并可在所述分析器上运行的计算机程序，所述分析器执行所述计算机程序时实现上述所述的方法的步骤。

第四方面，本发明实施例提供了一种具有分析器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述分析器执行上述所述的方法的步骤。

在本发明实施例中，首先，获取目标对象的视频图像，其中，视频图像包括多个图像帧，每个图像帧中包括目标对象的脸部信息；然后，在视频图像中提取第一图像和第二图像，其中，第一图像用于表征视频图像中的静态信息，第二图像用于表征视频图像中所有像素点的位置变化信息；最后，对第一图像和第二图像进行活体分析，分别得到第一分析结果和第二分析结果，最后，通过第一分析结果和第二分析结果确定目标对象是否为活体。

在本实施例中，充分利用视频中的静态图像信息和光流信息(即，像素点的位置变化信息)来进行活体检测，且不需要用户完成张嘴眨眼等多种动作，具有使用简便，精度高、安全度高等优点，进而缓解了传统的活体检测技术安全等级低，以及对使用者的动作难度要求过于复杂的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的示意图；

图2为本发明实施例提供的一种活体检测方法的流程图；

图3为本发明实施例提供的一种可选的目标活体检测模型训练方法的流程图；

图4为本发明实施例提供的一种可选的在视频图像中提取第一图像和第二图像的流程图；

图5为本发明实施例提供的一种可选的图像帧中提取一张第二图像的流程图；

图6为本发明实施例提供的一种可选的通过目标活体检测模型对第一图像和第二图像进行分析的流程图；

图7为本发明实施例提供的一种活体检测装置的示意图；

图8为本发明实施例提供的另一种活体检测装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先，参照图1来描述用于实现本发明实施例的电子设备100，该电子设备可以用于运行本发明各实施例的活体检测方法。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及图像采集器110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集器110用于进行图像采集，其中，图像采集器所采集的数据经过所述活体检测方法进行处理得到活体检测结果，例如，图像采集器可以拍摄用户期望的图像(例如照片、视频等)，然后，将该图像经过所述活体检测方法处理得到活体检测结果，图像采集器还可以将所拍摄的图像存储在所述存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的活体检测方法的电子设备可以被实现为诸如摄像机、抓拍机、智能手机、平板电脑等智能终端。

根据本发明实施例，提供了一种活体检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种活体检测方法，如图2所示，该方法包括如下步骤：

步骤S202，获取目标对象的视频图像，所述视频图像包括多个图像帧，每个所述图像帧中包括所述目标对象的脸部信息；

在本实施例中，该视频图像所对应的视频又可以称为静默视频，表示对象的脸部处于静默状态时录制的脸部视频，其中，脸部处于静默状态是指脸部的各个器官未发生大变化的动作。上述目标对象可以为人，还可以为除人之外的其他待进行活体检测的对象，本实施例中不做具体限定。

在对目标对象进行活体检测时，首先采集目标对象的视频图像，其中，视频图像为目标对象注视屏幕或者镜头一段时间(比如2至3秒)录制的包含目标对象的脸部信息的图像。其中，屏幕或者镜头为如图1所述的电子设备中的屏幕或者镜头(也即，图1中的图像采集器110)。

需要说明的是，在本实施例中，视频图像所组成的视频时长可以不限定在2至3秒，可以根据实际需要来进行调整，例如，根据如图1所示的电子设备的识别精度和识别速度来调整该视频的时长。

步骤S204，在所述视频图像中提取第一图像和第二图像，其中，所述第一图像用于表征所述视频图像中的静态信息，所述第二图像用于表征所述视频图像中所有像素点的位置变化信息；

在获取视频图像后，在视频图像中提取第一图像和第二图像。在本实施例中，第一图像又可以称为RGB(Red Green Blue)图像，第二图像又可以称为Flow图像。

RGB图像用于表达视频图像中的静态信息；Flow图像是灰度图像，通过光流算法抽取得到的，其表达了视频图像的光流信息，也就是表征了视频图像中所有像素点的位置变化信息，可以理解为前一图像帧中所有的像素点在当前图像帧中出现的位置。

步骤S206，对所述第一图像进行活体分析得到第一分析结果，对所述第二图像进行活体分析得到第二分析结果，根据第一分析结果和第二分析结果确定所述目标对象是否为活体。

在得到第一图像和第二图像后，可以通过目标活体检测模型对第一图像和第二图像进行活体分析，分别得到第一分析结果和第二分析结果。

需要说明的是，目标活体检测模型是预先通过训练样本对原始活体检测模型进行训练之后得到的模型，其中，原始活体检测模型是基于机器学习算法搭建的模型。其中，机器学习算法包括但不限于以下算法：随机森林算法，支持向量回归算法，神经网络算法。当然，还可以包括其它机器学习算法，本发明实施例不对机器学习算法的形式进行限制。

在通过目标活体检测模型对目标对象进行活体检测之前，需要对目标活体检测模型的原始活体检测模型进行训练，下面将结合具体实施例对原始活体检测模型的训练过程进行详细描述。

图3是本发明提供的目标活体检测模型训练方法的流程图。在目标活体检测模型的训练过程中，如图3所示，该方法包括如下步骤：

步骤S301，获取训练视频集合，其中，训练视频集合中包括：第一类视频集合和第二类视频集合，所述第一类视频集合的图像帧中包括活体对象的脸部处于静态时的脸部信息，所述第二类视频集合的图像帧中包括非活体对象的脸部处于静态时的脸部信息；

步骤S302，对第一类视频集合和所述第二类视频集合进行图像提取，得到第一图像集和第二图像集，其中，第一图像集中的图像用于表征训练视频集合中训练视频的静态信息，第二图像集中的图像用于表征训练视频中所有像素点的位置变化信息；

步骤S303，利用第一图像集和第二图像集对原始活体检测模型进行训练，得到目标活体检测模型。

在本实施例中，第一类视频集合中包含多个视频，每个视频是在活体对象的脸部处于静默状态时拍摄的包含活体对象脸部信息的视频。例如，包括多个真实人的脸部信息的人脸视频。第二类视频集合中同样包括多个视频，每个视频是在非活体对象处于静默状态时拍摄的包含非活体对象的脸部信息的视频。其中，非活体对象可以是戴虚假面具的对象，包含脸部图像的照片，在显示屏幕上显示包含脸部图像等等。

需要说明的是，上述第一类视频集合又可以称为活体视频集，例如，真人视频集；上述第二类视频集合又可以称为非活体视频集，例如，假人视频集。

在得到第一类视频集合和第二类视频集合后，分别对第一类视频集合和第二类视频集合中的图像帧进行图像提取，得到第一图像集和第二图像集。其中，第一图像集为RGB图像集，第二图像集为Flow图像集。

具体地，在本实施例中，在活体视频集和非活体视频集中均提取RGB图像，构成第一图像集；并在活体视频集和非活体视频集中均提取Flow图像，构成第二图像集。

在活体视频集或者非活体视频集中提取RGB图像时，针对第一类视频集合和第一类视频集合中的每一个视频均采用下述方式，下面以一个视频为例进行说明，不再一一赘述。

首先，将某个视频分为segments个区间段(比如3个)，然后，从每个区间段里随机抽取一张RGB图像，进而用segments个RGB图像代表一个视频。通过上述处理方式，能够去除视频中的冗余信息，从而降低了电子设备的计算量。在按照上述方式在第一类视频集合和第二类视频集合进行RGB图像提取之后，得到第一图像集。

需要说明的是，上述若干个区间段可以自定义，本实施例中不做具体限定。例如，可以根据视频的长短、检测的精度来定义该区间段的数量，如果视频越长，区间段的数量就越多；检测精度越高，区间段的数量也越多。

在活体视频集或者非活体视频集中提取Flow图像时，针对第一类视频集合和第一类视频集合中的每一个视频均采用下述方式，下面以一个视频为例进行说明，不再一一赘述。

首先，将视频分为若干个区间段(比如3个)，从每个区间段里随机抽取2*n张连续的Flow图像，其中，2*n张连续的Flow图像中包括：n张x方向连续的Flow图像和n张y方向连续的Flow图像。在本实施例中，通过segments*2*n张Flow图像来代表该视频，能够去除该视频中的冗余信息，降低了电子设备计算量。在按照上述方式在第一类视频集合和第二类视频集合进行Flow图像提取之后，得到第二图像集。其中，segments为区间段的数量。

需要说明的是，上述若干个区间段可以自定义，需要根据视频的长短、检测的精度来定义，如果视频越长，区间段的数量就越多；检测精度越高，区间段的数量也越多。

另外，Flow图像是灰度图像，通过光流算法抽取得到的，其表达了视频的光流信息，也就是表征了训练视频集合中的视频的所有像素点的位置变化信息，可以理解为前一图像帧中所有的像素点在当前图像帧中的出现位置。按照二维空间坐标系，可以抽出前一图像帧在x坐标轴方向的位移和y轴方向的位移，所以一个图像帧可以抽出两个Flow图像，即Flow_x和Flow_y，其中，Flow_x表示x方向连续的Flow图像，Flow_y表示y方向连续的Flow图像。

之所以要抽取n张连续的Flow图像是因为Flow图像代表了所有像素点的光流信息，因此，只有连续的抽取n张Flow图像才能真正的代表一个视频在时间域上的位移信息。

需要说明的是，一般情况下，n的取值小于区间段中包括的图像帧的数量，但是大于1。

在得到第一图像集和第二图像集后，此时，就得到了训练集；接下来，就可以利用第一图像集和第二图像对原始活体检测模型进行训练，以得到目标活体检测模型。

在一个可选地实施方式中，可以利用第一图像集对原始活体检测模型中的第一原始检测模型进行训练，得到目标活体检测模型中的第一检测模型。

在本实施例中，利用RGB图像集(即第一图像集)对原始RGB模型(即第一原始检测模型)进行训练，得到目标活体检测模型中的RGB模型(即第一检测模型)。RGB模型所采用的算法可以为以下任一种：随机森林算法，支持向量回归算法，神经网络算法等等。

在另一个可选地实施方式中，可以利用第二图像集对原始活体检测模型中的第二原始检测模型进行训练，得到目标活体检测模型中的第二检测模型。

在本实施例中，利用Flow图像集(即第二图像集)对原始Flow模型(即第二原始检测模型)进行训练，得到目标活体检测模型中的Flow模型(即第二检测模型)。Flow模型所采用的算法可以为以下任一种：随机森林算法，支持向量回归算法，神经网络算法等等。

上述内容对目标活体检测模型的训练方法进行了详细介绍，下面对本发明的活体检测方法进行详细介绍。

如图4所示，在一个可选的实施例中，在视频图像中提取第一图像和第二图像包括如下步骤：

步骤S401，将视频图像划分成N个视频图像组，其中，N为大于1的正整数；

步骤S402，在每个视频图像组中提取一张第一图像，以及在每个视频图像组中提取M张连续的第二图像，其中，M为大于1的正整数。

在本实施例中，在得到视频图像后，首先，将视频图像划分为N个视频图像组，每个视频图像组中包括多个图像帧。具体的，N的大小可以自定义，需要根据视频的长短、检测的精度来定义，如果视频越长，区间段的数量就越大；检测精度越高，区间段的数量也越大。

需要说明的是，这里的N可以与上述描述中的segments相同，也可以不同，本发明实施例对其不进行具体限制。

在得到N个视频图像组后，在每个视频图像组中提取一张第一图像，其中，第一图像为RGB图像；同时，在每个视频图像组中提取M张连续的第二图像，其中，M张连续的第二图像为M张连续的Flow图像。

通过上述处理方式，能够去除视频中的冗余信息，从而降低了电子设备的计算量，提高电子设备的计算速度。

可选地，在每个视频图像组中提取M张连续的第二图像时，可以先在每个视频图像组中随机选择M个连续的图像帧；然后，在M个连续的图像帧中的每个图像帧中提取一张第二图像。

同理，这里的M与上述内容中的n可以相同，也可以不同，本发明实施例对其不进行具体限制。

如图5所示，在第二图像包括第一子图像和第二子图像的情况下，在M个连续的图像帧中的每个图像帧中提取一张第二图像包括如下步骤：

步骤S501，在图像帧A_i中提取第一子图像，其中，第一子图像中包括第一位移信息，第一位移信息表示像素点在图像帧A_i-1和图像帧A_i中X轴方向的位移信息；

步骤S502，在图像帧A_i中提取第二子图像，其中，第二子图像中包括第二位移信息，第二位移信息表示像素点在图像帧A_i-1和图像帧A_i中Y轴方向的位移信息；

其中，图像帧A_i为M个连续的图像帧中的第i个图像帧，i依次取1至M。

需要说明的是，第一子图像又可以理解为上述实施例中介绍的Flow_x，第二子图像又可以理解为上述实施例中介绍的Flow_y。

也就是说，在本实施例中，M个连续的图像帧中的每个图像帧中均提取一个Flow_x和Flow_y。在Flow_x中包括第一位移信息，该第一位移信息表示像素点在上一个图像帧和当前图像帧中X轴方向的位移信息。在Flow_y中包括第二位移信息，该第二位移信息表示像素点在上一个图像帧和当前图像帧中Y轴方向的位移信息。

在按照上述过程完成第二图像的提取之后，每个视频将得到M个第二图像，其中，每个第二图像中包括一个第一子图像和一个第二子图像，也就是说，在按照上述过程完成第二图像的提取之后，将得到M*2张Flow图像。

上述内容为在视频图像中提取第一图像和第二图像的具体过程，下面再对通过目标活体检测模型对第一图像和第二图像进行分析的过程进行详细描述。

在一个可选的实施例，参考图6，对所述第一图像进行活体分析得到第一分析结果，对所述第二图像进行活体分析得到第二分析结果，根据第一分析结果和第二分析结果确定所述目标对象是否为活体包括如下步骤：

步骤S601，通过目标活体检测模型中的第一检测模型对第一图像进行活体分析，得到第一分析结果，其中，第一分析结果中包括：目标对象为活体的概率和/或目标对象不是活体的概率；

步骤S602，通过目标活体检测模型中的第二检测模型对第二图像进行活体分析，得到第二分析结果，其中，第二分析结果中包括：目标对象为活体的概率和/或目标对象不是活体的概率；

步骤S603，对第一分析结果和第二分析结果进行融合，得到目标分析结果，并通过所述目标分析结果确定所述目标对象是否为活体，其中，目标分析结果中包括：目标对象为活体的概率和/或目标对象不是活体的概率。

在本实施例中，首先，通过目标活体检测模型中的RGB模型(即第一检测模型)对RGB图像(即N个第一图像)进行分析，得到RGB模型的分析结果(即第一分析结果)。

然后，通过目标活体检测模型中的Flow模型(即第二检测模型)对Flow图像(即M个第二图像，或者，M*2张Flow图像)进行分析，得到Flow模型的分析结果(即第二分析结果)。

最后，对第一分析结果和第二分析结果进行融合，得到目标分析结果，并通过所述目标分析结果确定所述目标对象是否为活体，其中，目标分析结果中包括：目标对象为活体的概率和/或目标对象不是活体的概率。

可选地，对第一分析结果和第二分析结果进行融合，得到目标分析结果包括：

首先，获取预设权重，其中，所述预设权重包括所述第一分析结果的权重和所述第二分析结果的权重；

然后，按照所述预设权重对所述第一分析结果和所述第二分析结果进行融合，得到所述目标分析结果。

在本实施例的一个可选实施方式中，可以为RGB模型和Flow模型分别设置了对应的权重。在对第一分析结果和第二分析结果进行融合时，可以按照该权重对第一分析结果和第二分析结果进行融合，得到目标分析结果。

在本实施例的一个可选实施方式中，假设，第一分析结果中目标对象为活体的概率为a1，第一分析结果中目标对象不是活体的概率为b1；第二分析结果中目标对象为活体的概率为a2，第二分析结果中目标对象不是活体的概率为b2；那么可以将a1，b1，a2和b2看成是一个1*4的矩阵[a1，b1，a2，b2]。

在此情况下，预设权重可以为一个4*2的权重矩阵。此时，就可以将1*4的矩阵[a1，b1，a2，b2]与4*2的权重矩阵进行乘法运算，得到两个数值，分别为A和B，其中，A为目标分析结果中目标对象为活体的概率，B为目标分析结果中目标对象不是活体的概率。

需要说明的是，在本实施例中，预设权重是通过神经网络计算出来的，具体地，是神经网络根据第一分析结果和第二分析结果确定出的权重。

在得到目标分析结果后，进一步通过目标分析结果确定目标对象是否为活体，具体包括如下步骤：

(1)在确定出目标分析结果中目标对象为活体的概率大于第一阈值的情况下，确定目标对象为活体；或者

(2)在确定出目标分析结果中目标对象不是活体的概率大于第二阈值的情况下，确定目标对象不是活体；或者

(3)在确定出目标分析结果中目标对象是活体的概率小于第三阈值的情况下，确定目标对象不是活体；或者

(4)在确定出目标分析结果中目标对象不是活体的概率小于第四阈值的情况下，确定目标对象是活体。

具体的，第一阈值、第二阈值、第三阈值和第四阈值为预先设定的值，本发明对第一阈值、第二阈值、第三阈值和第四阈值的大小不进行具体限制。例如，可以选取第一阈值和第二阈值均为0.8，还可以选取第一阈值为0.85，选取第二阈值为0.75。

通过上述描述可知，在本实施例中，在采用RGB图像和Flow图像对目标对象进行活体检测的方式中，将光流法应用到活体检测中。传统的活体检测方法大都基于单帧图像，因此，该方法丢失了很多图像之间的信息。但是，本实施例所提供的活体检测方法则是基于短视频，从视频中抽取帧以及前后帧之间的光流信息，并借助图像帧和光流信息对视频进行活体检测，同样达到了甚至超越了之前基于单帧图像的活体检测方法；并且采取稀疏抽帧的方式，去除了冗余降低了计算量。并且使用者只需注视屏幕2到3秒即可完成活体检测，不需要做任何张嘴眨眼摇头等复杂动作，大大提升了用户体验，降低活体检测复杂度，提升了检测效率。

本发明实施例还提供了一种活体检测装置，该活体检测装置主要用于执行本发明实施例上述内容所提供的活体检测方法，以下对本发明实施例提供的活体检测装置做具体介绍。

图7是根据本发明实施例的一种活体检测装置的示意图，如图7所示，该活体检测装置主要包括第一获取单元10，提取单元20和分析单元30，其中：

第一获取单元10，用于获取目标对象的视频图像，所述视频图像包括多个图像帧，每个所述图像帧中包括所述目标对象的脸部信息；

提取单元20，用于在所述视频图像中提取第一图像和第二图像，其中，所述第一图像用于表征所述视频图像中的静态信息，所述第二图像用于表征所述视频图像中所有像素点的位置变化信息；

分析单元30，用于对所述第一图像进行活体分析得到第一分析结果，对所述第二图像进行活体分析得到第二分析结果，根据第一分析结果和第二分析结果确定所述目标对象是否为活体。

可选地，如图8所示，提取单元20包括：划分模块21，用于将所述视频图像划分成N个视频图像组，其中，N为大于1的正整数；提取模块22，用于在每个所述视频图像组中提取一张所述第一图像，以及在每个所述视频图像组中提取M张连续的第二图像，其中，M为大于1的正整数。

可选地，提取模块22包括：随机选择子模块，用于在每个所述视频图像组中随机选择M个连续的图像帧；提取子模块，用于在M个连续的图像帧中的每个图像帧中提取一张第二图像。

可选地，提取子模块还用于：在图像帧A_i中提取第一子图像，其中，第一子图像中包括第一位移信息，第一位移信息表示像素点在图像帧A_i-1和图像帧A_i中X轴方向的位移信息；在图像帧A_i中提取第二子图像，其中，第二子图像中包括第二位移信息，第二位移信息表示像素点在图像帧A_i-1和图像帧A_i中Y轴方向的位移信息；其中，图像帧A_i为M个连续的图像帧中的第i个图像帧，i依次取1至M。

可选地，分析单元包括：第一分析模块，用于通过目标活体检测模型中的第一检测模型对第一图像进行活体分析，得到第一分析结果，其中，第一分析结果中包括：目标对象为活体的概率和/或目标对象不是活体的概率；第二分析模块，用于通过目标活体检测模型中的第二检测模型对第二图像进行活体分析，得到第二分析结果，其中，第二分析结果中包括：目标对象为活体的概率和/或目标对象不是活体的概率；融合模块，用于对所述第一分析结果和所述第二分析结果进行融合，得到所述目标分析结果，并通过所述目标分析结果确定所述目标对象是否为活体，其中，所述目标分析结果中包括：所述目标对象为活体的概率和/或所述目标对象不是活体的概率。

可选地，融合模块还包括：获取模块，用于获取预设权重，其中，所述预设权重包括所述第一分析结果的权重和所述第二分析结果的权重；融合子模块，用于按照所述预设权重对所述第一分析结果和所述第二分析结果进行融合，得到所述目标分析结果。

可选地，该装置还包括：第一确定单元，用于在确定出目标分析结果中目标对象为活体的概率大于第一阈值的情况下，确定目标对象为活体；或者，第二确定单元，用于在确定出所述目标分析结果中所述目标对象不是活体的概率大于第二阈值的情况下，确定所述目标对象不是活体。

可选地，该装置还包括：第二获取单元，用于获取训练视频集合，其中，所述训练视频集合中包括：第一类视频集合和第二类视频集合，所述第一类视频集合的图像帧中包括活体对象的脸部处于静态时的脸部信息，所述第二类视频集合的图像帧中包括非活体对象的脸部处于静态时的脸部信息；图像提取单元，用于对所述第一类视频集合和所述第二类视频集合进行图像提取，得到第一图像集和第二图像集，其中，所述第一图像集中的图像用于表征所述训练视频集合中训练视频的静态信息，所述第二图像集中的图像用于表征所述训练视频中所有像素点的位置变化信息；训练单元，用于利用第一图像集和第二图像集对原始活体检测模型进行训练，得到目标活体检测模型。

可选地，训练单元包括：第一训练模块，用于利用第一图像集对原始活体检测模型中的第一原始检测模型进行训练，得到目标活体检测模型中的第一检测模型；第二训练模块，用于利用第二图像集对原始活体检测模型中的第二原始检测模型进行训练，得到目标活体检测模型中的第二检测模型。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

在另一个实施例中，还提供了一种具有分析器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述分析器执行上述方法实施例中任意实施例所述的方法的步骤。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个分析单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个分析器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种活体检测方法，其特征在于，包括：

获取目标对象的视频图像，所述视频图像包括多个图像帧，每个所述图像帧中包括所述目标对象的脸部信息；所述视频图像为静默视频，表示对象的脸部处于静默状态时录制的脸部视频，其中，脸部处于静默状态是指脸部的各个器官未发生大变化的动作；

将所述视频图像划分成N个视频图像组，其中，N为大于1的正整数；

在每个所述视频图像组中提取一张第一图像，以及在每个所述视频图像组中提取M张连续的第二图像，其中，M为大于1的正整数，所述第一图像用于表征所述视频图像中的静态信息，所述第二图像用于表征所述视频图像中所有像素点的位置变化信息；第一图像为RGB图像；

通过目标活体检测模型对在所述N个视频图像组中提取的第一图像进行活体分析得到第一分析结果，通过目标活体检测模型对在所述N个视频图像组中提取的第二图像进行活体分析得到第二分析结果，根据所述第一分析结果和所述第二分析结果确定所述目标对象是否为活体。

2.根据权利要求1所述的方法，其特征在于，在每个所述视频图像组中提取M张连续的第二图像包括：

在每个所述视频图像组中随机选择M个连续的图像帧；

在所述M个连续的图像帧中的每个图像帧中提取一张所述第二图像。

3.根据权利要求2所述的方法，其特征在于，所述第二图像包括第一子图像和第二子图像，在所述M个连续的图像帧中的每个图像帧中提取一张所述第二图像包括：

在图像帧A_i中提取所述第一子图像，其中，所述第一子图像中包括第一位移信息，所述第一位移信息表示像素点在图像帧A_i-1和所述图像帧A_i中X轴方向的位移信息；

在所述图像帧A_i中提取所述第二子图像，其中，所述第二子图像中包括第二位移信息，所述第二位移信息表示所述像素点在所述图像帧A_i-1和所述图像帧A_i中Y轴方向的位移信息；

其中，所述图像帧A_i为所述M个连续的图像帧中的第i个图像帧，i依次取1至M。

4.根据权利要求1所述的方法，其特征在于，对所述第一图像进行活体分析得到第一分析结果，对所述第二图像进行活体分析得到第二分析结果，根据所述第一分析结果和所述第二分析结果确定所述目标对象是否为活体包括：

通过目标活体检测模型中的第一检测模型对所述第一图像进行活体分析，得到所述第一分析结果，其中，所述第一分析结果中包括：所述目标对象为活体的概率和/或所述目标对象不是活体的概率；

通过目标活体检测模型中的第二检测模型对所述第二图像进行活体分析，得到所述第二分析结果，其中，所述第二分析结果中包括：所述目标对象为活体的概率和/或所述目标对象不是活体的概率；

对所述第一分析结果和所述第二分析结果进行融合，得到目标分析结果，并通过所述目标分析结果确定所述目标对象是否为活体，其中，所述目标分析结果中包括：所述目标对象为活体的概率和/或所述目标对象不是活体的概率。

5.根据权利要求4所述的方法，其特征在于，对所述第一分析结果和所述第二分析结果进行融合，得到目标分析结果包括：

获取预设权重，其中，所述预设权重包括所述第一分析结果的权重和所述第二分析结果的权重；

按照所述预设权重对所述第一分析结果和所述第二分析结果进行融合，得到所述目标分析结果。

6.根据权利要求4所述的方法，其特征在于，通过所述目标分析结果确定所述目标对象是否为活体包括：

在确定出所述目标分析结果中所述目标对象为活体的概率大于第一阈值的情况下，确定所述目标对象为活体；或者

在确定出所述目标分析结果中所述目标对象不是活体的概率大于第二阈值的情况下，确定所述目标对象不是活体。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取训练视频集合，其中，所述训练视频集合中包括：第一类视频集合和第二类视频集合，所述第一类视频集合的图像帧中包括活体对象的脸部信息，所述第二类视频集合的图像帧中包括非活体对象的脸部处于静态时的脸部信息；

对所述第一类视频集合和所述第二类视频集合进行图像提取，得到第一图像集和第二图像集，其中，所述第一图像集中的图像用于表征所述训练视频集合中训练视频的静态信息，所述第二图像集中的图像用于表征所述训练视频中所有像素点的位置变化信息；

利用所述第一图像集和所述第二图像集对原始活体检测模型进行训练，得到所述目标活体检测模型。

8.根据权利要求7所述的方法，其特征在于，利用所述第一图像集和所述第二图像集对原始活体检测模型进行训练，得到所述目标活体检测模型包括：

利用所述第一图像集对所述原始活体检测模型中的第一原始检测模型进行训练，得到所述目标活体检测模型中的第一检测模型；

利用所述第二图像集对所述原始活体检测模型中的第二原始检测模型进行训练，得到所述目标活体检测模型中的第二检测模型。

9.一种活体检测装置，其特征在于，包括：

第一获取单元，用于获取目标对象的视频图像，所述视频图像包括多个图像帧，每个所述图像帧中包括所述目标对象的脸部信息；所述视频图像为静默视频，表示对象的脸部处于静默状态时录制的脸部视频，其中，脸部处于静默状态是指脸部的各个器官未发生大变化的动作；

提取单元，用于将所述视频图像划分成N个视频图像组，其中，N为大于1的正整数；在每个所述视频图像组中提取一张第一图像，以及在每个所述视频图像组中提取M张连续的第二图像，其中，M为大于1的正整数，所述第一图像用于表征所述视频图像中的静态信息，所述第二图像用于表征所述视频图像中所有像素点的位置变化信息；第一图像为RGB图像；

分析单元，用于通过目标活体检测模型对在所述N个视频图像组中提取的第一图像进行活体分析得到第一分析结果，通过目标活体检测模型对在所述N个视频图像组中提取的第二图像进行活体分析得到第二分析结果，根据所述第一分析结果和所述第二分析结果确定所述目标对象是否为活体。

10.一种电子设备，包括存储器、分析器及存储在所述存储器上并可在所述分析器上运行的计算机程序，其特征在于，所述分析器执行所述计算机程序时实现上述权利要求1至8中任一项所述的方法的步骤。

11.一种具有分析器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述分析器执行上述权利要求1至8中任一项所述的方法的步骤。