CN110866454B

CN110866454B - 人脸活体检测方法及***、计算机可读取的存储介质

Info

Publication number: CN110866454B
Application number: CN201911011281.XA
Authority: CN
Inventors: 韦美丽; 刘伟华
Original assignee: Athena Eyes Co Ltd
Current assignee: Athena Eyes Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-08-25
Anticipated expiration: 2039-10-23
Also published as: CN110866454A

Abstract

本发明公开了一种人脸活体检测方法及***、计算机可读取的存储介质。本发明的人脸活体检测方法及***，基于多帧3D深度图像进行人脸活体检测，相对于现有的基于BGR图像进行人脸活体检测的方式，其不受环境光照变化的影响，检测准确率和泛化能力更好，并且构建了循环注意力网络模型对多帧3D深度图像进行处理，引入了注意力机制，结合前后多帧深度图像动态选择有利于检测是否为活体的深度图像区域，从而进一步提升了人脸活体检测的准确率和泛化能力，避免出现由于用户距离较远导致单帧3D深度图像不明显从而导致出现误判的情况。

Description

人脸活体检测方法及***、计算机可读取的存储介质

技术领域

本发明涉及人脸识别活体检测技术领域，特别地，涉及一种人脸活体检测方法及***、计算机可读取的存储介质。

背景技术

人脸活体检测技术是人脸识别能够推广的前提，是人脸识别领域的研究热点之一，其目的在于判断摄像头捕捉的是真实人脸还是伪造的人脸，以防止非法之徒攻击人脸识别***，以谋取不当得利。人脸活体检测技术在安防领域、金融以及实际生活中有着广泛的应用，比如：人脸识别门禁，人脸锁等，这其中往往存在安全问题，目前的人脸活体检测的准确性很低，容易被攻破，往往威胁用户的人身安全和财产安全。但是，现有方法通常不尽如人意，在环境光线变化时，人脸活体检测往往失效。

目前，人脸活体检测的方法主要包括：1)随机交互式人脸活体检测技术；2)无需额外硬件设备的基于BGR图像的人脸活体检测技术；3)需要额外硬件设备的基于近红外或者深度图的人脸活体检测技术。

1)、随机交互式人脸活体检测技术，是通过随机交互的方式判断当前人脸是否真实人脸，一般是要求用户完成一组随机动作，包括：眨眼、张闭嘴、摇摇头，点点头等动作，如果能在规定的时间完成规定的动作，即判断为该人脸是用户的真实人脸，否则是伪造的人脸。虽然可以一定程度上抵挡非法人员的攻击，但也存在用户体验较差的问题，影响用户的使用，不利于人脸识别***的推广。

2)、无需额外硬件设备的基于BGR图像的人脸活体检测技术，是通过针对BGR图像提取特征，进行二分类，判断是否为真实人脸，提取的特征包括：LBP等传统机器学习方法提取的特征，卷积神经网络等提取的特征等。但是在环境光照变化时，BGR图像成像不稳定，很难提取到能够区别真实人脸和伪造人脸的本质特征，所以其较低的准确率和泛化性能无法满足人脸识别的安全性能的保障。

3)、需要额外硬件设备的基于近红外或者3D深度图的人脸活体检测技术，由于BGR图像的成像随光照环境的变化差异较大，准确率较低，需要结合额外的硬件设备，采用近红外摄像头或者结构光、TOF摄像头采集的近红外图像和3D深度图像，并针对近红外图像和3D深度图像提取特征，进行二分类，判断是否为真实人脸，提取的特征包括：PCA等传统机器学习方法提取的特征，卷积神经网络等提取的特征等。虽然近红外和3D深度图都一定程度上有利于提升人脸活体检测的准确率和泛化性能，但是现有的特征提取和分类都是基于单帧图像的，有时也会造成误判，比如：用户在离摄像头较远时，深度图的成像可能会不完整，无法体现真假图像之间的差异。

发明内容

本发明提供了一种人脸活体检测方法及***、计算机可读取的存储介质，以解决现有的人脸活体检测方法存在的用户体验感差、在环境光照发生变化和用户距离较远时识别准确率低的技术问题。

根据本发明的一个方面，提供一种人脸活体检测方法，基于循环注意力机制对深度图像进行特征提取，包括以下步骤：

步骤S1：构建循环注意力网络模型并初始化其网络参数，其中，所述循环注意力网络模型包括注意力特征选取网络、注意力分类网络和注意力位置更新网络；

步骤S2：输入多帧3D深度图像；

步骤S3：利用多帧3D深度图像对循环注意力网络模型进行训练，直至目标函数收敛，训练完成后保存网络模型；

步骤S4：将任意视频的多帧3D深度图像序列输入循环注意力网络模型中进行人脸活体检测。

进一步地，所述步骤S3包括以下步骤：

步骤S31：利用注意力特征选取网络对3D深度图像进行提取特征；

步骤S32：基于提取出的特征进行分类评估是否为活体和对注意力选取位置进行更新；

步骤S33：重复执行上述步骤S31和步骤S32直至目标函数收敛。

进一步地，所述步骤S31包括以下步骤：

步骤S311：在输入的原图区域中以注意力位置为中心选取与注意力位置区域相同大小的k个图像区域，将k个图像区域分别扩大倍数后对每张图像进行归一化处理，以得到k张m*m大小的图像；

步骤S312：对k张m*m大小的图像进行压缩和提取特征，得到特征维度为1*128的特征

步骤S313：对注意力位置区域的图像进行压缩和提取特征，得到特征维度为128的特征

步骤S314：将特征和/>连接以得到维度为256的特征g_t。

进一步地，所述步骤S32包括以下步骤：

步骤S321：将t时刻经过步骤S31提取得到的特征g_t与t-1时刻注意力分类网络保留的特征h_t-1一起输入至注意力分类网络中，经注意力分类网络的隐藏层单元对特征进行提取得到隐藏记忆层特征h_t；

步骤S322：将隐藏记忆层特征h_t输入注意力分类网络的交叉熵损失中进行二分类优化分类以判断是否为活体，得到分类概率值和本次的损失值，并采用Adam最优化方法更新网络参数；

步骤S323：将隐藏记忆层特征h_t输入注意力位置更新网络中以对注意力选取位置进行更新，并采用Reinforce方法更新网络参数。

进一步地，所述步骤S2中的多帧3D深度图像通过结构光相机或者TOF摄像头拍摄得到。

本发明还提供一种人脸活体检测***，包括模型构建模块，用于构建循环注意力网络模型，所述循环注意力网络模型包括注意力特征选取网络、注意力分类网络和注意力位置更新网络；

初始化模块，用于对循环注意力网络模型的参数进行初始化；

深度图像输入模块，用于向循环注意力网络模型中输入多帧3D深度图像；

训练模块，用于采用多帧3D深度图像对循环注意力网络模型进行训练，直至目标函数收敛，并保存网络模型；

预测模块，用于将任意视频的多帧3D深度图像序列输入训练好的循环注意力网络模型中进行人脸活体检测。

进一步地，所述训练模块包括

特征提取单元，用于采用注意力特征选取网络对3D深度图像进行提取特征；

循环计算单元，用于基于提取出的特征进行分类评估是否为活体和对注意力选取位置进行更新。

本发明还提供一种计算机可读取的存储介质，用于存储进行人脸活体检测的计算机程序，该计算机程序在计算机上运行时执行如上所述的人脸活体检测方法的步骤。

本发明具有以下有益效果：

本发明的人脸活体检测方法，基于多帧3D深度图像进行人脸活体检测，相对于现有的基于BGR图像进行人脸活体检测的方式，其不受环境光照变化的影响，检测准确率和泛化能力更好，并且构建了循环注意力网络模型对多帧3D深度图像进行处理，引入了注意力机制，结合前后多帧深度图像动态选择有利于检测是否为活体的深度图像区域，从而进一步提升了人脸活体检测的准确率和泛化能力，避免出现由于用户距离较远导致单帧3D深度图像不明显从而导致出现误判的情况。

另外，本发明的人脸活体检测同样具有上述优点。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的人脸活体检测方法的流程示意图。

图2是本发明优选实施例的图1中的步骤S3的子流程示意图。

图3是本发明优选实施例的图2中的步骤S31的子流程示意图。

图4是本发明优选实施例的人脸活体检测方法基于循环注意力模型的网络框架流程示意图。

图5是本发明优选实施例的图2中的步骤S32的子流程示意图。

图6是本发明另一实施例的人脸活体检测***的模块结构示意图。

图7是本发明另一实施例的图5中的训练模块的单元结构示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由下述所限定和覆盖的多种不同方式实施。

如图1所示，本发明的优选实施例提供一种人脸活体检测方法，其基于循环注意力机制对深度图像进行特征提取，所述人脸活体检测方法包括以下步骤：

步骤S2：输入多帧3D深度图像；

在本实施例中，所述人脸活体检测方法，基于多帧3D深度图像进行人脸活体检测，相对于现有的基于BGR图像进行人脸活体检测的方式，其不受环境光照变化的影响，检测准确率和泛化能力更好，并且构建了循环注意力网络模型对多帧3D深度图像进行处理，引入了注意力机制，结合前后多帧深度图像动态选择有利于检测是否为活体的深度图像区域，从而进一步提升了人脸活体检测的准确率和泛化能力，避免出现由于用户距离较远导致单帧3D深度图像不明显从而导致出现误判的情况。

可以理解，在所述步骤S1中，所述循环注意力网络模型的参数包括权重W、偏置B和注意力位置L(x，y，h，w)，其中，注意力位置L中的x，y表示注意力初始选取位置的坐标，h表示注意力位置区域选取的高度，b表示注意力位置区域选取的宽度，其中，优选采用随机数对循环注意力网络模型的参数进行初始化。所述注意力选取网络可以采用GlimpseNetwork(瞥见网络)，所述注意力分类网络和注意力位置更新网络可以采用RNN(循环神经网络)。

可以理解，在所述步骤S2中可以通过结构光相机或者TOF(Time of Flight飞行时间)相机拍摄得到多帧3D深度图像，并且3D深度图像相对于现有的BGR图像包含了深度信息，可以更加准确地识别是否为真实人脸，而且在环境光照发生变化时，对3D深度图像的成像基本上不会有影响，成像更加稳定。

可以理解，如图2所示，所述步骤S3具体包括以下步骤：

步骤S33：重复执行上述步骤S31和步骤S32直至目标函数收敛。

可以理解，如图3所示，所述步骤S31具体包括以下步骤：

步骤S314：将特征和/>连接以得到维度为256的特征g_t。

可以理解，在所述步骤S311中，如图4中的A图所示，图4中的A图表示经注意力特征选取网络选取得到k张m*m大小图像的框架流程示意图，在输入的某一帧3D深度图像中以注意力位置L为中心，选取与注意力位置区域(h*w)相同大小的k个图像区域，然后对每个图像区域进行扩大，扩大的倍数可以相同也可以不同，例如分别扩大1倍、1.5倍、1.8倍、2倍等，本实施例中优选为每个图像区域扩大的倍数均不相同，从而可以得到k张不同放大倍数的图像，然后对k张不同放大倍数的图像进行归一化处理，得到k张m*m大小的图像。其中，注意力位置L可以指导对输入循环注意力网络的图像区域进行选取，并且可以由注意力位置更新网络不断地更新注意力位置L，当人脸深度图像部分缺失时，选取的图像会更加关注具有深度信息值的人脸位置，例如眼睛、鼻子等，而忽略了没有深度信息值的人脸位置，例如额头、脸颊等，并且这些根据注意力位置L选取的图像区域输入到后续的注意力分类网络中时可以提升整体网络的分类能力，并且在不断循环的过程中保留和总结更有利于分类和位置更新的特征。

可以理解，在所述步骤S312中，如图4中的B图所示，图4中的B图表示经过注意力特征选取网络提取出特征和特征/>并将两者连接形成特征g_t的框架流程示意图，将k张m*m尺寸大小的图像经注意力选取网络的全连接层对图像进行压缩和提取特征后，得到特征维度为1*128的特征/>该特征/>可以很好地对这次注意到的图像区域进行表达。

可以理解，在所述步骤S313中，将注意力位置区域的图像(尺寸大小为h*w)经注意力选取网络的全连接层对图像进行压缩、提取特征和编码后，得到特征维度为128的该特征/>可以很好地表达注意力位置区域的图像。

可以理解，在所述步骤S314中，将128维的特征和/>串联起来得到维度为256的特征g_t。由于注意力位置L和由该位置选取的k个注意力图像之间是存在因果相关性，通过将两个特征连接在一起，可以通过注意力分类网络和注意力位置更新网络同时对注意力位置进行调整和对注意力图像进行特征提取，从而基于循环注意力机制可以大大提升人脸活体检测的准确率。

可以理解，如图5所示，所述步骤S32具体包括以下步骤：

步骤S323：将隐藏记忆层特征h_t输入注意力位置更新网络中以对注意力选取位置进行更新，并采用Reinforce(强化)方法更新网络参数。

可以理解，在所述步骤S321中，如图4中的C图所示，图4中的C图表示经过注意力分类网络和注意力位置更新网络进行分类和位置更新的框架流程示意图，由t时刻经步骤S31提取到的特征和t-1时刻的记忆特征综合决定t时刻的网络的分类结果和注意力位置L的更新结果，之后依次更新t+1时刻的网络的分类结果和注意力位置L的更新结果。其中，注意力分类网络中保留的特征信息h_t-1总结了之前时刻观测特征中提取的信息，编码了之前时刻的深度图像，保留了易于分类是否为活体的信息，剔除了不包含深度信息值的人脸位置，有助于判断t时刻是否为活体的分类结果和如何更新注意力位置L。将t时刻经过步骤S31提取得到的特征g_t与t-1时刻注意力分类网络保留的特征h_t-1一起输入至注意力分类网络后，所述注意力分类网络的隐藏层单元h_t＝f_h(h_t-1，g_t)对特征进行提取，得到隐藏记忆层特征h_t。所述隐藏层单元的门控设计可以遗忘掉不利于分类是否为活体的特征，将有助于分类的信息特征，比如鼻子、眼睛区域是否包含深度信息等进行总结和保留。得到的隐藏记忆层特征h_t有助于判断t时刻是否为活体的分类结果和如何更新注意力位置L，并且还可以指导t+1时刻的图像特征的选取。

可以理解，在所述步骤S322中，将t时刻的隐藏记忆层特征h_t输入到注意力分类网络的交叉熵损失函数层中进行分类，具体采用二分类方法判断是否为活体，并得到分类的概率值p、1-p和本次的损失值，然后采用Adam最优化方法更新注意力分类网络的网络参数。

可以理解，在所述步骤S323中，将t时刻的隐藏记忆层特征h_t输入到注意力位置更新网络中，从而根据前t时刻隐藏记忆层的特征指导对注意力选取位置进行更新，并采用Reinforce方法更新网络参数。根据前面时刻的图像的信息进行总结，当有些图像中的人脸某些部位缺失时，可以关注到人脸中有深度信息的位置，如眼睛、鼻子等，而对没有深度信息的人脸位置不进行选取。

可以理解，在所述步骤S33中，在网络的不断循环优化中，会综合多个时刻的深度图像特征共同决定最后是否为活体的分类结果，并在每个循环优化过程中，不断更新注意力位置L，选取具有深度信息的人脸部位，而忽略掉不具有深度信息的人脸部位，直到目标函数收敛，然后保存训练好的循环注意力网络模型。

可以理解，在所述步骤S4中，在循环注意力网络模型训练结束后，将任意一个视频的多帧3D深度图像序列输入至网络中进行人脸活体检测。

可以理解，如图6所示，本发明的另一实施例还提供一种人脸活体检测***，其优选采用如上所述的人脸活体检测方法，所述人脸活体检测***包括：

模型构建模块11，用于构建循环注意力网络模型，所述循环注意力网络模型包括注意力特征选取网络、注意力分类网络和注意力位置更新网络，所述注意力选取网络可以采用Glimpse Network(瞥见网络)，所述注意力分类网络和注意力位置更新网络可以采用RNN(循环神经网络)；

初始化模块12，用于对循环注意力网络模型的参数进行初始化，所述循环注意力网络模型的参数包括权重W、偏置B和注意力位置L(x，y，h，w)，其中，注意力位置L中的x，y表示注意力初始选取位置的坐标，h表示注意力位置区域选取的高度，b表示注意力位置区域选取的宽度，其中，优选采用随机数对循环注意力网络模型的参数进行初始化；

深度图像输入模块13，用于向循环注意力网络模型中输入多帧3D深度图像，所述深度图像输入模块13可以是结构光相机或者TOF相机；

训练模块14，用于采用多帧3D深度图像对循环注意力网络模型进行训练，直至目标函数收敛，并保存网络模型；

预测模块15，用于将任意视频的多帧3D深度图像序列输入训练好的循环注意力网络模型中进行人脸活体检测。

在本实施例中，所述人脸活体检测***，基于结构光相机或者TOF相机拍摄得到多帧3D深度图像进行人脸活体检测，相对于现有的基于BGR图像进行人脸活体检测的方式，其不受环境光照变化的影响，检测准确率和泛化能力更好，并且构建了循环注意力网络模型对多帧3D深度图像进行处理，引入了注意力机制，结合前后多帧深度图像动态选择有利于检测是否为活体的深度图像区域，从而进一步提升了人脸活体检测的准确率和泛化能力，避免出现由于用户距离较远导致单帧3D深度图像不明显从而导致出现误判的情况。

可以理解，如图7所示，所述训练模块14包括：

特征提取单元141，用于采用注意力特征选取网络对3D深度图像进行提取特征，具体为：首先在输入的原图区域中以注意力位置为中心选取与注意力位置区域相同大小的k个图像区域，将k个图像区域分别扩大倍数后对每张图像进行归一化处理，以得到k张m*m大小的图像；然后对k张m*m大小的图像进行压缩和提取特征，得到特征维度为1*128的特征再对注意力位置区域的图像进行压缩和提取特征，得到特征维度为128的特征/>最后将特征/>和/>连接以得到维度为256的特征g_t；

循环计算单元142，用于基于提取出的特征进行分类评估是否为活体和对注意力选取位置进行更新，具体为：先将t时刻经过步骤S31提取得到的特征g_t与t-1时刻注意力分类网络保留的特征h_t-1一起输入至注意力分类网络中，经注意力分类网络的隐藏层单元对特征进行提取得到隐藏记忆层特征h_t；再将隐藏记忆层特征h_t输入注意力分类网络的交叉熵损失中进行二分类优化分类以判断是否为活体，得到分类概率值和本次的损失值，并采用Adam最优化方法更新网络参数；最后将隐藏记忆层特征h_t输入注意力位置更新网络中以对注意力选取位置进行更新，并采用Reinforce方法更新网络参数。

可以理解，本发明的另一实施例还提供一种计算机可读取的存储介质，用于存储进行人脸活体检测的计算机程序，该计算机程序在计算机上运行时优选执行如上所述的人脸活体检测方法的步骤。具体地，该计算机程序在计算机上运行时执行以下步骤：

步骤S2：输入多帧3D深度图像；

可以理解，作为优选的，所述计算机程序在计算机上运行时还执行以下步骤：

步骤S33：重复执行上述步骤S31和步骤S32直至目标函数收敛。

步骤S314：将特征和/>连接以得到维度为256的特征g_t。

一般计算机可读取介质的形式包括：软盘(floppy disk)、可挠性盘片(flexibledisk)、硬盘、磁带、任何其与的磁性介质、CD-ROM、任何其余的光学介质、打孔卡片(punchcards)、纸带(paper tape)、任何其余的带有洞的图案的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、可抹除可编程只读存储器(EPROM)、快闪可抹除可编程只读存储器(FLASH-EPROM)、其余任何存储器芯片或卡匣、或任何其余可让计算机读取的介质。指令可进一步被一传输介质所传送或接收。传输介质这一术语可包含任何有形或无形的介质，其可用来存储、编码或承载用来给机器执行的指令，并且包含数字或模拟通信信号或其与促进上述指令的通信的无形介质。传输介质包含同轴电缆、铜线以及光纤，其包含了用来传输一计算机数据信号的总线的导线。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸活体检测方法，基于循环注意力机制对深度图像进行特征提取，其特征在于，

包括以下步骤：

步骤S2：输入多帧3D深度图像；

步骤S4：将任意视频的多帧3D深度图像序列输入循环注意力网络模型中进行人脸活体检测；

所述步骤S3包括以下步骤：

步骤S33：重复执行上述步骤S31和步骤S32直至目标函数收敛；

所述步骤S31包括以下步骤：

步骤S312：对k张m*m大小的图像进行压缩和提取特征，得到特征维度为1*128的特征θ_g ⁰；

步骤S313：对注意力位置区域的图像进行压缩和提取特征，得到特征维度为128的特征θ_g ¹；

步骤S314：将特征θ_g ⁰和θ_g ¹连接以得到维度为256的特征g_t；

所述步骤S32包括以下步骤：

2.如权利要求1所述的人脸活体检测方法，其特征在于，

所述步骤S2中的多帧3D深度图像通过结构光相机或者TOF摄像头拍摄得到。

3.一种人脸活体检测***，采用如权利要求1所述的人脸活体检测方法，其特征在于，

包括模型构建模块(11)，用于构建循环注意力网络模型，所述循环注意力网络模型包括注意力特征选取网络、注意力分类网络和注意力位置更新网络；

初始化模块(12)，用于对循环注意力网络模型的参数进行初始化；

深度图像输入模块(13)，用于向循环注意力网络模型中输入多帧3D深度图像；

训练模块(14)，用于采用多帧3D深度图像对循环注意力网络模型进行训练，直至目标函数收敛，并保存网络模型；

预测模块(15)，用于将任意视频的多帧3D深度图像序列输入训练好的循环注意力网络模型中进行人脸活体检测。

4.一种计算机可读取的存储介质，用于存储进行人脸活体检测的计算机程序，其特征在于，该计算机程序在计算机上运行时执行如权利要求1或2所述的人脸活体检测方法的步骤。