CN112818722A

CN112818722A - 模块化动态可配置的活体人脸识别***

Info

Publication number: CN112818722A
Application number: CN201911118295.1A
Authority: CN
Inventors: 纪侨斌; 徐树公; 曹姗
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2021-05-18
Anticipated expiration: 2039-11-15
Also published as: CN112818722B

Abstract

一种模块化动态可配置的活体人脸识别***，包括：图像输入模块、传输模块、采用融合特征卷积网络实现的活体检测模块、采用人脸特征提取卷积神经网络实现的人脸检测模块、人脸识别模块和结果输出模块，本发明融合多重人脸的特征，在应对不同光照强度下，获得更加高的人脸识别结果，在应对无光、弱光，正常光源下，特征融合网络具有高鲁棒性和高准确率。

Description

模块化动态可配置的活体人脸识别***

技术领域

本发明涉及的是一种神经网络应用领域的技术，具体是一种模块化动态可配置的活体人脸识别***，利用多模态数据来提高静默活体检测的准确率，适用于彩色、近红外、声音信息、深度信息、动作时序信息等多模态的信息。

背景技术

现有的2D人脸识别***很容易收到不法分子的攻击，常见的攻击类型包括印刷平面攻击，屏幕重放攻击，3D面具攻击等，如果不对这里恶意攻击先进行一次判断，就直接进行人脸识别，会大大降低人脸识别***的可靠性。现有的人脸识别方法有通过Retinex算法计算人脸图像受可见光照影响的程度，并根据影响程度调整人脸图像的明暗值后再进行分类识别以排除主观性干扰，或单独采用近红外图像替代可见光图像进行分类识别，但目前尚无将这两类现有技术有机结合并显著提高分类进度的技术。

此外，现有人脸识别***在使用过程中的输入方式相对固定，必须要对每个特定的使用场景定制相应的前端输入方式，不可以实现一次配置，对不同的应用场景进行动态可调的采集输入；现有的基于2D可见光平面RGB图像的人脸识别方案在核验身份，认证授权的过程中可能存在的，身份核验过程中被人利用非活体的图像，面具欺骗现有的人脸识别***的问题；现有的人脸识别***的验证结果输出模式单一，不能在多个平台上提供灵活的消息查看方式的问题

经过对现有技术的检索发现，中国专利文献号CN106874871A，公开日20170620，公开了一种活体人脸双摄像头识别方法，包括：通过配置的双摄像头的黑白摄像头获取一张黑白图像及一张红外图像；彩色摄像头获取一张彩色图像；将黑白图像与近红外图像中的人脸部分结合特征提取算法提取二维状态器官特征点；形成三维状态的器官特征点，经过人脸牲算法识别活体人脸的特征，判断人脸图像是否为活体人脸。以及活体人脸双摄像头识别装置。该技术通过双摄像头采集彩色图像及近红外图像，经过背景差分运算，获得去背景图片即人脸部分，通过特征提取算法提取器官特征点，经过人脸特征算法识别活体人脸的特征，判断人脸图像是否为活体人脸。但该现有技术在两次成像的过程，时间上是有间隔的，也就是说这两张黑白图片是不同步的。而且从原理是就是不同步的，这个时候如果相机出现移动，差分得出的区域就不是人脸区域，而包含和其他的噪声部分；其次，主动光源(近红外光)下在黑白摄像头成像与白光下成像无法保证人脸区域是相同灰度值的，因为近红外黑白图像的亮度会随着人脸离光源的距离变大而变暗，但是白光下的黑白图像却不会因为距离的变化而有较大的亮度差异。即人脸区域本身可能出现很大的差异性，无法利用差分方法检出。

中国专利文献号CN109684924A，公开日20190426，公开了一种人脸活体检测方法及装置，通过S1、接收包含人脸区域的深度图像、彩色图像、红外图像，并进行配准；S2、检测所述深度图像、彩色图像、红外图像中的人脸区域；S3、对所述人脸区域深度图像预处理实现图像增强并提取有效人脸深度图像；S4、将所述有效人脸深度图像、人脸区域的彩色图像和红外图像分别输入至经训练的级联深度卷积神经网络，进行精确的人脸活体检测。但该现有技术需要处理的图像通道数较高，实际使用过程对***的运算要求要，运算速度慢。在处理深度图的过程中，根据深度图检测出的人脸区域只要是是有类似人脸面部三维立体信息的部分便会通过第一个网络，没有对3D面具和立体头模攻击的防御能力。利用均值估计方法来补全没有深度信息的噪声区域，初始的滑动窗口的大小过大，可能导致在眼睛，颧骨等原本只有轻微起伏的区域经过修复之后过于平滑，与真人的深度信息不符，导致真人的误拦截率上升。

中国专利文献号CN109086718A，公开日20181225，公开了一种涉及活体检测方法、装置、计算机设备及存储介质，该方法包括获取人脸图像；对人脸图像进行检测以获取待测人脸区域；分析待测人脸区域，根据分析结果进行活体人脸、人脸活体防攻击以及人脸三维面具防攻击的判定，获取判定结果；输出判定结果。该技术通过获取彩色图像以及红外深度图像，通过对彩色图像进行深度学习模型检测人脸，结合分析待测人脸区域的屏幕像素纹理，以及采用Surf算法判定待测人脸区域是否满足预设条件，对人脸区域进行活体人脸判定以及人脸活体、人脸三维面具的防攻击判定，但该现有技术在人脸的移动时无法及时纠正，会导致人脸区域在前后图片之间的不一致性，进而影响后续的活体检测功能。利用人脸区域内有深度信息的像素点站红外深度图像的人脸区域的比重是否超过预设阈值来判断会导致：深度摄像头在成像的过程中人脸区域可能因为遮挡的问题出现空洞区域，导致真人无法通过；预设阈值依赖于特定的数据集无法达到良好的模型泛化以及3D人脸面具和头模会误过的问题。此外，基于人脸区域其否存在边框的活体检测判决可用性极低，翻拍攻击的区域可能覆盖整个摄像头的成像区域导致图像中拍不到边框，真人图像有可能因为背景中存在的竖直相同而被误拦截。

发明内容

本发明针对上述现有技术的缺陷和不足，提出一种模块化动态可配置的活体人脸识别***，融合多重人脸的特征，在应对不同光照强度下，获得更加高的人脸识别结果，在应对无光、弱光，正常光源下，特征融合网络具有高鲁棒性和高准确率。

本发明是通过以下技术方案实现的：

本发明涉及一种模块化动态可配置的活体人脸识别***，包括：图像输入模块、传输模块、活体检测模块、人脸检测模块、人脸识别模块和结果输出模块，其中：图像输入模块通过传输模块将不同形式的可见光图像和红外图像合流并预处理后分别输出可见光图像至人脸检测模块，输出红外图像至活体检测模块，人脸检测模块对可见光图像进行人脸区域检测并输出检测结果至活体检测模块、对可见光图像中的人脸图像进行面部关键点检测并进行人脸对齐处理后输出至人脸识别模块，活体检测模块根据人脸区域对红外图像进行裁剪并进行活体检测，人脸识别模块根据对齐后的人脸图像进行特征提取和对比并输出比对近似度至结果输出模块，结果输出模块根据活体检测结果和比对近似度显示识别结果。

所述的可见光图像优选为：640×480分辨率，8bit深度的图像。

所述的红外图像优选为：红外深度摄像头为640×480分辨率，16bit深度的图像。

技术效果

本发明技术效果包括：

1.利用单通道的近红外图像和三通道彩色图像进行人脸活体检测判断，这种方式比同时利用彩色图，深度图，近红外图，的融合或级联的方式减少的20％数据输入量，整体模型参数量大小不足100kb，活体检测部分的单次预测时间小于2ms。

2.利用的人脸活体检测的图像分辨率统一设置为112×112分辨。该大小为人脸检测结果扩大1.5倍后缩放到此大小.扩大0.5倍之后的人脸区域可以让网络的输入包含一部分人的头发和人脸边缘的信息，提升真人在活体检测的通过率。同时人脸识别模块的输入可以复用112×112分辨率的彩色图像区域，减少一次图像尺寸变化。单次识别可降低***耗时0.43ms。

3.利用人脸区域的平均深度，即人脸跟红外深度摄像头之间的平均距离作为条件批归一化的条件，即利用距离条件，解决不同距离下，人脸的近红外图像亮度不同的问题，提高了活体检测模型的鲁棒性。

与现有技术相比，本发明利用RGB和近红外图像来保证活体检测模块有很高的通过率，同时保持较低的误过率。在CASIA-SURF数据集上在误过率为0.01％时的通过率达到了99.65％。本发明在通用的公开数据集Megaface上的在两个评测任务，一比一百万top-1识别准确率和一边一百万验证准确率都达到了很高的精度。

附图说明

图1为本发明***示意图；

图2为融合特征卷积网络示意图；

图3为SE块示意图；

图4为人脸特征提取卷积神经网络示意图；

图5为实施例中PReLU与普通的ReLU比较图。

具体实施方式

如图1所示，为本实施例涉及一种模块化动态可配置的活体人脸识别***，包括：图像输入模块、传输模块、活体检测模块、人脸检测模块、人脸识别模块和结果输出模块，其中：图像输入模块通过传输模块将不同形式的可见光图像和红外图像合流并预处理后分别输出可见光图像至人脸检测模块，输出红外图像至活体检测模块，人脸检测模块对可见光图像进行人脸区域检测并输出检测结果至活体检测模块、对可见光图像中的人脸图像进行面部关键点检测并进行人脸对齐处理后输出至人脸识别模块，活体检测模块根据人脸区域对红外图像进行裁剪并进行活体检测，人脸识别模块根据对齐后的人脸图像进行特征提取和对比并输出比对近似度至结果输出模块，结果输出模块根据活体检测结果和比对近似度显示识别结果。

所述的图像输入模块包括：可见光图像采集单元和红外图像采集单元。

所述的可见光图像采集单元的输入源包括但不限于：①USB串口摄像头、②监控摄像头或③网络摄像头。

所述的USB串口摄像头直接通过USB口连接在数据处理服务器上，通常摄像头与数据处理服务器的距离在3米以内时应用这种输入方案；

所述的监控摄像头一般通过网线或者无线Wi-Fi的方式连接到路由器，同时把数据处理服务器也连接到同一个局域网内，监控摄像头采集到的图像通过路由器转发之后传到数据处理服务器，采用这种输入方案一般应用在摄像头与数据处理服务器的距离在100m以内；

③所述的网络摄像头泛指在远程设备上的摄像头，它是在远程终端上的嵌入式摄像头，比如手机，ipad，也是远程主机上的串口摄像头，这种摄像头最为广泛，采集100米以上范围的图像数据。

本实施例在实际部署时根据实际应用采集选取任意一种图像采集设备搭配一个配准过的红外摄像头即可实现前端采集模块。

所述的红外图像采集单元采用红外摄像头，其采集的图像分辨率为640×480单通道8比特深度的黑白图像，RGB摄像头采集的图像分辨率为640×480三通道8比特深度的可见光图像，两种摄像头设置成相同的帧率模式，保证同一个时刻，经过数据合流之后组成一个640×480×4的多维数组，送入传输模块。

所述的不同形式，包括串口直连传输、网线直连传输、RTSP流传输以及TCP网络串流传输，传输模块根据图像输入模块的要求对应动态配置传输形式并将采集到的多维数组进行预处理，即数据分流，将之前合流的近红外图像数据和可见光图像重新分开并分别输出至人脸检测模块和活体检测模块，以保证数据的同步性能和增强抗干扰的性能，避免了因为传输多径效应导致接收端收到的两组图像失步，导致彩色图和红外图像不对齐的问题。

本实施例中先逐像素再通道逐的取出方式相当于把不同模态不同通道的信息交织在一起，通过分散的不同的通道维度上将块状噪声变成点状噪声，以避免在传输过程中出现个别像素点的数据传输错误时导致的一个通道上一块区域上的图像信息错误，提升***的鲁棒性。

所述的数据分流是指：合流后的数据在经过传输模块之后重排组成一个640×480的4通道图像再分离出相应的彩色图和红外图，以适配MTCNN的人脸检测器的三通道的彩色图像输入以及活体检测模块的双分支输入，即同时输入同一个时刻的彩色人脸区域图像和红外人脸区域图像。

所述的人脸检测模块包括：人脸检测器、面部提取单元和人脸对齐单元，其中：人脸检测器与活体检测模块的图像裁剪单元相连并传输人脸区域信息，面部提取单元与人脸对齐单元相连并传输人脸关键坐标信息，人脸对齐单元与人脸识别模块的特征提取单元相连并传输由人脸关键点计算出的仿射变换矩阵变换过后的人脸区域的图像信息，具体为：人脸检测器根据人脸区域的左上角和右下角坐标，从可见光图像中裁剪出人脸区域，分别将彩色人脸区域和人脸区域在原图像中的左上角和右下角坐标一并输出至活体检测模块，同时在活体检测模块判断输出是活体之后将人脸区域和人脸关键坐标信息输出至人脸对齐单元。

所述的人脸区域信息是指：左上角坐标(Xmin,Ymin)右下角坐标(Xmax，Ymax)。

所述的人脸关键坐标信息是指：左眼中心、右眼中心、鼻尖、左嘴角和右嘴角的坐标信息。

所述的人脸对齐单元通过仿射变换矩阵将原本的人脸区别通过平移、缩放、旋转、翻转、剪切变化的一种或多种的组合，变换成两眼水平比较位于双眼连线的垂直平分线上的标准人脸。

x′＝m₁₁x+m₂₁y+t_x

所述的仿射变换是指：y′＝m₁₂x+m₂₂y+t_y，其中：x、y表示原图中一个像素点的坐标，x′、y′表示变之后新的像素点的坐标；m11、m12、m21、m22为反射变化矩阵参数反映图像的平移、缩放、旋转、翻转、剪切，tx、ty表示像素点在水平方向和垂直方向上的平移量。

求解仿射变换矩阵的过程，就是利用从检测到的人脸关键点(x,y)点，比如鼻尖的坐标，到标准人脸的鼻尖位置(x',y')点之间的约束关系，求解仿射变换矩阵中的6个未知数的过程，其中人脸关键点有x，y两个坐标，就得到两个方程，每一张人脸，人脸检测器返回5个关键点，即到达10个坐标变换方程，利用这10个方程求出仿射变换矩阵中的6个未知数。然后把人脸区域的每个像素点坐标跟仿射变换矩阵相乘得到在对齐之后的坐标点的位置，这就完成的人脸对齐校正的过程。

所述的活体检测模块包括：图像裁剪单元和活体检测单元，其中：图像裁剪单元根据人脸检测模块返回的人脸区域左上角和右下角坐标，在近红外图像上裁剪出相应的人脸区域，将得到的近红外人脸区域和彩色人脸区域输出至活体检测单元，活体检测模块采用融合特征卷积网络。

如图2所示，所述的融合特征卷积网络包括：可见光图像分支、近红外分支以及分别与之相连的融合层、两个后卷积层、平均池化层和预测层，其中：可见光图像分支和近红外分支均为卷积神经网络，各个分支均包含一个用于提取中间层特征的普通卷积层单元和三个深度可分离卷积层单元。

所述的普通卷积层单元包括一个卷积层、一个批归一化层和一个激活层。

所述的深度可分离卷积层单元包括一个深度卷积层、一个逐点卷积、两个批归一化层、两个激活层。

所述的预测层包括两个全连接层。

所述的融合层将可见光图像分支的最后一个深度可分离卷积层的输出与近红外分支的最后一个深度可分离卷积层的输出在通道维度上拼接得到包含彩色和近红外的融合特征，融合特征依次通过两个后卷积层和平均池化层后得到表征可见光图像信息和近红外图像信息的特征向量。

优选地，除了倒数第三层，平均池化层之外，均采用步长为2的卷积操作达到降维的作用，每个卷积层之后都进行批归一化然后利用ReLU函数对运算结果进行非线性激活。

所述的全连接层的结果经过一个softmax函数之后输出预测的是否为活体的概率值。训练的Loss选用CrossEntropy(交叉熵)Loss。

如图2所示，为活体检测模块中的融合特征卷积网络，其包括卷积核的尺寸为3×3，步长为2(Con3×3,2)的普通卷积层、卷积核的尺寸为3×3，步长为2(DPConv3×3,2)的一个深度卷积层以及卷积核大小为1×1，步长为1的逐点卷积层，该网络中的每个卷积操作之后都接一个批归一化和ReLU分线性激活。

所述的人脸识别模块包括：特征提取单元、特征比对单元和数据库，其中：特征提取单元接收来自人脸检测模块经人脸对齐后的112x112分辨率的RGB三通道图片，通过内置的人脸特征提取卷积神经网络抽取512维的高维人脸特征嵌入表示(Embedding)并输出至特征比对单元，特征比对单元计算得到的Embedding和数据库中所有注册的人脸的Embedding的欧式距离，根据不同距离的大小来判断这个人脸的身份。

所述的人脸特征提取卷积神经网络包括：输入层、特征提取主干层和输出层，其中：输入层包括一层卷积，一层批归一化层，一层PReLU层；特征主干层包括四个残差卷积块且四个残差卷积块中分别含有3个、4个、14个、3个瓶颈层，每个瓶颈层中包含有一个跳跃连接，两个卷积层和一个SE(Sequeeze-and-Excitation,压缩激活)块。

如图3和图4所示，每个SE块中通过一个全局池化层沿着空间维度进行特征压缩，将每个通道的二维特征都压缩成唯一的一个全局分布响应值，其表示了这个通道上的响应的全局分布。然后通过全连接层进行通道扩张并经过ReLU非线性激活后，通过全连接层恢复并经过sigmoid函数非线性激活，得到与输入的特征通道数相同的一维特征向量，即高维人脸特征嵌入表示(Embedding)。

优选地，为了使得重要的通道占有更大的权重，在瓶颈层中的非线性激活函数都采用PReLU,PReLU与普通的ReLU的不同之处在与对于小于零的部分ReLU是直接变成零，而PReLU则是对于小于零的部分，分别给不同的通道加上一个不同的参数a_i，通常a_i是一个比较小的数比如0.01，这样在前一次的输出小于零时网络能有一个跟通道相关的比较小的输出，从而提升网络的表达能力。训练时候的Loss采用基于角度优化的Arcface Loss。

所述的结果输出模块将人脸识别的结果反馈给***的用户，当活体检测部分的结果显示当前的图像并非活体，识别提前终止，并将非活体的提示给***用户；当成功通过活体检测则输出识别的结果和相应的置信度分数。***的用户的以通过后端的界面获取识别信息，也通过电脑或者手机端的界面获取对应的提示。

本实施例中的活体检测模块的融合特征卷积网络使用CASIA-SURF数据集进行训练和测试，人脸识别模块的人脸特征提取网络使用refine MS-Celeb-1M进行训练，使用Megaface数据集进行测试。

本实施例中的数据集采用CASIA-SURF数据集是目前最大的面部反欺骗数据集，包括三个模态(即RGB，深度和IR)CASIA-SURF数据集在21000个视频中包含1000名中国人，每个样本包括1个实时视频片段和6个不同攻击方式的假视频片段。该数据集由6次攻击生成。眼睛，鼻子，嘴巴区域或它们的组合以不同的攻击方式被移除。除了脸部区域之外，复杂背景将从原始视频中删除。数据集分为训练集，验证集和测试集。训练，验证和测试集分别有300,100和600个类别。除了面部区域之外，复杂的背景将从原始图像中移除。三种模态图像被裁剪和对齐。此数据集中RGB图像的分辨率为1280×720，深度，IR和对齐图像的分辨率为640×480

原本的MS-Celeb-1M数据集包含大约10万个身份和1000万张图像。为了降低MS-Celeb-1M的噪音并获得高质量的训练数据，按照与身份中心的距离对每个身份的所有面部图像进行排名。对于特定的标识，特征向量距离身份特征中心太远的人脸图像会自动删除。最后获得了一个包含380k独特身份的3.8M图像的数据集。

MegaFace数据集是最大的公共可用测试基准发布，旨在评估百万级干扰物的人脸识别算法的性能。MegaFace数据集包括训练集和测试集。训练集是来自雅虎的Flickr照片的一部分，由来自690k不同个体的超过一百万张图像组成。测试集是两个现有的数据库：FaceScrub和FGNet。FaceScrub是一个公开可用的数据集，包含530个独特个体的100k张照片，其中55,74两个图像是男性，52,076个图像是女性。FGNet是一个面部老化数据集，包含来自8两个标识符的1002张图像。每个身份都有不同年龄的多个面部图像。

本实施例对于所有的训练数据，先进行数据预处理，裁剪出人脸区域并进行尺寸归一化，即对训练集的人脸图像进行人脸检测，根据人脸检测的结果，扩大1.5倍后裁剪出相应的人脸区域，然后根据人脸检测模块得到的5个人脸关键点把人脸经由一个仿射变换矩阵，变成一个标准的人脸(又叫人脸对齐，保证鼻子垂直居中，两眼水平，关于鼻子中线对称，嘴巴嘴角两端水平，关于鼻子中线对称)

使得每个图像的输入尺寸大小为112×112，并给每个人脸图像设置相对应类别的标签，标签形式为one-hot标签格式。

本实施例中的融合特征卷积神经网络，采用CASIA-SURF的RGB和IR模态数据和二分类的类别标签作为输入。训练过程中，卷积核和权重进行随机初始化，偏置项置为0。采用随机梯度下降(SGD)算法对网络进行网络参数的更新和梯度的优化，当网络的Loss收敛之后，训练停止并保存训练好的卷积神经网络模型。人脸特征特征提取网络的输入为经过人脸对齐之后的人脸区域RGB三通道彩色面部图像和对应的人脸身份标签。训练过程中，卷积核和权重进行随机初始化，不设置偏置项。采用随机梯度下降(SGD)算法对网络进行网络参数的更新。优化过程中的动量设置为0.9，卷积核的权重L2正则化，λ参数设置为0.0005，初始学习率为0.1，并在第10，14，16个迭代周期分别缩小十倍到0.01,0.001,0.0001。人脸特征提取网络一共训练20个迭代周期后停止或者Loss连续3个周期下降小于1％之后提前终止训练，并保存相应的模型。

训练好模型后，重新将训练好的权重载入，将测试样本输入网络模型中，输出预测结果，并计算识别准确率。活体检测的记过如表1所示，我们的方法在CASIA-SURF的公开数据集上能取得很好的结果。评价指标中ACER表示活体分类错误率和非活体分类错误率的平均，用于表征活体检测模型的综合性能。看到RGB和IR两个模态融合之后综合分类错误率为0.1％，在误通过率为10e-4时的正确通过率为99.65％。

模态	ACER	TPR@FPR＝10E-4
			RGB	3.20％	95.70％
IR	1.20％	98.15％
			RGB+IR	0.10％	99.65％

表1多模态活体检测结果

人脸特征提取模型在Megaface的测试数据集上，在两个评测任务Identification，在1比一百万干扰的识别任务的top-1的识别准确率达到97.83％，1一比一百万干扰的验证任务在FPR为10e-6时的验证通过率为98.35％。达到了业界领先水平。

表2 Megaface的测试结果

本发明利用红外深度摄像头的深度信息作为红外图像批归一化的条件，即在该活体检测模块实际前向推理预测的过程中，红外摄像头采集到的图像不是直接进行数据合流，而是经过预处理，用深度(人脸离摄像头距离)统一归一化之后再进行数据合流。

在主干网络的Res block(残差块)结构中将SE block(压缩激活块)嵌入到最后一个BN(批归一化层)和该残差块的输出结果之间，对不同的通道依据其通道的重要性进行加权。提升特征提取性能。

将Res block中第一个卷积层之后的激活层的激活函数由ReLU，改成了PReLU，在增加少量参数的代价下，提高了网络对于网络输出位于x轴负半轴部分的数据点的关注度，保留更多的人脸特征，以提高人脸识别模块的精度。

经过具体实际实验，在CASIA-SURF的测试集上，可见光和近红外双分支的融合活体检测模型APCER(Attack Presentation Classification Error Rate)攻击表现分类错误率0.1996％，NPCER(Normal Presentation Classification Error Rate)ACER正常表现分类错误率0.0001％，ACER(Average Classification Error Rate)平均分类错误率0.0999％。比单独使用一个模态的可见光和近红外模型的ACER分别降低了3.1个百分点和1.1个百分点。在FAR(为0.0001时的TPR为99.65％。

与现有技术相比，本发明双分支活体检测模型的参数量0.096M比现有的最小的模型的参数量0.35M还要少。在测试的硬件平台上活体检测模块的单次预测时间为1.63ms，整个***的单帧处理时间35.12ms(28 FPS)满足实时性要求。

人脸特征提取模型在Megaface的测试数据集上，在1比一百万干扰的识别任务的top-1的识别准确率达到97.83％，1比一百万干扰的验证任务在FPR＝0.000001下的TPR为98.35％。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种模块化动态可配置的活体人脸识别***，其特征在于，包括：图像输入模块、传输模块、采用融合特征卷积网络实现的活体检测模块、采用人脸特征提取卷积神经网络实现的人脸检测模块、人脸识别模块和结果输出模块，其中：图像输入模块通过传输模块将不同形式的可见光图像和红外图像合流并预处理后分别输出可见光图像至人脸检测模块，输出红外图像至活体检测模块，人脸检测模块对可见光图像进行人脸区域检测并输出检测结果至活体检测模块、对可见光图像中的人脸图像进行面部关键点检测并进行人脸对齐处理后输出至人脸识别模块，活体检测模块根据人脸区域对红外图像进行裁剪并进行活体检测，人脸识别模块根据对齐后的人脸图像进行特征提取和对比并输出比对近似度至结果输出模块，结果输出模块根据活体检测结果和比对近似度显示识别结果。

2.根据权利要求1所述的模块化动态可配置的活体人脸识别***，其特征是，所述的图像输入模块包括：具有设置成相同的帧率模式的可见光图像采集单元和红外图像采集单元。

3.根据权利要求1所述的模块化动态可配置的活体人脸识别***，其特征是，所述的不同形式，包括串口直连传输、网线直连传输、RTSP流传输以及TCP网络串流传输，传输模块根据图像输入模块的要求对应动态配置传输形式并将采集到的多维数组进行预处理，即数据分流，将之前合流的近红外图像数据和可见光图像重新分开并分别输出至人脸检测模块和活体检测模块，以保证数据的同步性能和增强抗干扰的性能，避免了因为传输多径效应导致接收端收到的两组图像失步，导致彩色图和红外图像不对齐的问题。

4.根据权利要求3所述的模块化动态可配置的活体人脸识别***，其特征是，所述的数据分流是指：合流后的数据在经过传输模块之后重排组成一个640×480的4通道图像再分离出相应的彩色图和红外图，以适配MTCNN的人脸检测器的三通道的彩色图像输入以及活体检测模块的双分支输入，即同时输入同一个时刻的彩色人脸区域图像和红外人脸区域图像。

5.根据权利要求1所述的模块化动态可配置的活体人脸识别***，其特征是，所述的人脸检测模块包括：人脸检测器、面部提取单元和人脸对齐单元，其中：人脸检测器与活体检测模块的图像裁剪单元相连并传输人脸区域信息，面部提取单元与人脸对齐单元相连并传输人脸关键坐标信息，人脸对齐单元与人脸识别模块的特征提取单元相连并传输由人脸关键点计算出的仿射变换矩阵变换过后的人脸区域的图像信息。

6.根据权利要求1所述的模块化动态可配置的活体人脸识别***，其特征是，所述的活体检测模块包括：图像裁剪单元和活体检测单元，其中：图像裁剪单元根据人脸检测模块返回的人脸区域左上角和右下角坐标，在近红外图像上裁剪出相应的人脸区域，将得到的近红外人脸区域和彩色人脸区域输出至活体检测单元。

7.根据权利要求1所述的模块化动态可配置的活体人脸识别***，其特征是，所述的融合特征卷积网络包括：可见光图像分支、近红外分支以及分别与之相连的融合层、两个后卷积层、平均池化层和预测层，其中：可见光图像分支和近红外分支均为卷积神经网络，各个分支均包含一个用于提取中间层特征的普通卷积层单元和三个深度可分离卷积层单元；

所述的普通卷积层单元包括一个卷积层、一个批归一化层和一个激活层；

所述的深度可分离卷积层单元包括一个深度卷积层、一个逐点卷积、两个批归一化层、两个激活层；

所述的预测层包括两个全连接层；

8.根据权利要求1所述的模块化动态可配置的活体人脸识别***，其特征是，所述的人脸识别模块包括：特征提取单元、特征比对单元和数据库，其中：特征提取单元接收来自人脸检测模块经人脸对齐后的112x112分辨率的RGB三通道图片，通过内置的人脸特征提取卷积神经网络抽取512维的高维人脸特征Embedding并输出至特征比对单元，特征比对单元计算得到的Embedding和数据库中所有注册的人脸的Embedding的欧式距离用于判断人脸身份。

9.根据权利要求1或8所述的模块化动态可配置的活体人脸识别***，其特征是，所述的人脸特征提取卷积神经网络包括：输入层、特征提取主干层和输出层，其中：输入层包括一层卷积，一层批归一化层，一层PReLU层；特征主干层包括四个残差卷积块且四个残差卷积块中分别含有3、4、14和3个瓶颈层，每个瓶颈层中包含有一个跳跃连接层、两个卷积层和一个压缩激活块。

10.根据权利要求9所述的模块化动态可配置的活体人脸识别***，其特征是，所述的瓶颈层中的非线性激活函数都采用PReLU，并在训练时采用Arcface Loss作为损失函数。