CN111860456B

CN111860456B - 一种蒙面人脸识别方法

Info

Publication number: CN111860456B
Application number: CN202010773738.7A
Authority: CN
Inventors: 苏文烈
Original assignee: Guangzhou Weizhilian Technology Co ltd
Current assignee: Guangzhou Weizhilian Technology Co ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2024-02-02
Anticipated expiration: 2040-08-04
Also published as: CN111860456A

Abstract

本发明属于人工智能技术领域，公开了一种蒙面人脸识别方法，包括如下步骤：S1：根据非蒙面人脸图像数据，获取蒙面人脸图像数据集；S2：基于神经网络、置信度适应机制以及多帧聚类预测机制，使用蒙面人脸图像数据集，建立蒙面识别模型；S3：实时获取现场视频，并根据现场视频，使用蒙面识别模型进行识别，得到识别结果。本发明解决了现有技术存在的识别效果低、识别效率低、人脸识别神经网络结构复杂以及受场景影响大的问题。

Description

一种蒙面人脸识别方法

技术领域

本发明属于人工智能技术领域，具体涉及一种蒙面人脸识别方法。

背景技术

社会安全愈发受重视，蒙面分子的身份认证变得特别重要，虽然各地有安装了一些视频监控，但是由于视频监控环境复杂，既有人群密度、运动离散等原因，也有成像环境等原因，给庞大监控下的蒙面分子人脸身份识别带来极大的现实挑战。

随着经济的发展，口罩人脸识别需求也变得异常突出。很多头部厂商都针对性开发口罩遮挡下的人脸识别算法。但各家厂商的算法研究成果都不尽相同，识别准确率也参差不齐。但基本上都是应用于闸机/人脸考勤等相对静止的近距离的识别场景。

现有技术存在的缺点：

在人脸识别领域中，佩戴口罩/面罩属于大面积人脸遮挡，一直以来都是公认难题，难点主要体现在以下四点：

1)人脸识别算法主要依据人脸面部特征进行身份判定，佩戴口罩进行识别时，算法无法准确检测人脸位置、定位五官关键点，大大降低了识别效果。

2)人脸识别算法使用的深度学习技术依赖海量的训练数据，短期内难以收集到大量佩戴口罩照片，并进行人工标注，识别效率低；

3)人脸识别神经网络结构复杂，包含多重模块，佩戴口罩影响的不仅仅是人脸比对模块，还会影响到人脸检测、跟踪等多个模块，对整个设计带来很大的干扰影响。

4)目前监控场景下的蒙面识别很受场景复杂性和多样性的影响，特别是成像模糊复杂场景对蒙面视觉识别带来极大的挑战。

发明内容

本发明旨在于至少在一定程度上解决上述技术问题之一。

为此，本发明目的在于提供一种蒙面人脸识别方法，用于解决现有技术存在的识别效果低、识别效率低、人脸识别神经网络结构复杂以及受场景影响大的问题。

本发明所采用的技术方案为：

一种蒙面人脸识别方法，包括如下步骤：

S1：根据非蒙面人脸图像数据，获取蒙面人脸图像数据集；

S2：基于神经网络、置信度适应机制以及多帧聚类预测机制，使用蒙面人脸图像数据集，建立蒙面识别模型；

S3：实时获取现场视频，并根据现场视频，使用蒙面识别模型进行识别，得到识别结果。

进一步地，步骤S1中，使用多样和交互的面部图像操作MaskGAN方法对非蒙面人脸图像数据进行处理，得到蒙面人脸图像数据集。

进一步地，步骤S2中，神经网络为残差网络，残差网络设置有LSTM长短时记忆模块，LSTM长短时记忆模块设置有遗忘门。

进一步地，步骤S2中，遗忘门的公式为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

式中，f_t为遗忘门函数；σ(*)为sigmoid激活函数；h_t-1为前一个时间步(t-1)的输出；t为时间步指示量；x_t为当前时间步的输入；b_f为卷积层偏置项；W_f为卷积层权重。

进一步地，步骤S2中，神经网络的输出公式为：

式中，o_ij为经过注意力加权后的输出特征；α_ij为归一化后的注意力权重；i为注意力指示量；j为单向时间步；n为单向时间步数；h_j为各个时间步的输出。

进一步地，步骤S2的具体步骤为：

S2-1：将蒙面人脸图像数据集分为训练集和测试集；

S2-2：使用训练集对神经网络进行训练，得到初始的蒙面识别模型；

S2-3：将置信度适应机制和多帧聚类预测机制加入初始的蒙面识别模型，并使用测试集对初始的蒙面识别模型进行优化，得到并输出最优的蒙面识别模型。

进一步地，步骤S2中，置信度适应机制为：根据输入当前模型的人脸图像数据集的成像模糊度适应性调整当前模型的置信度阈值。

进一步地，步骤S3的具体步骤为：

S3-1：实时获取现场视频，对现场视频进行人体头部检测，在检测到人体头部后，获取当前人体头部的头部特征；

S3-2：将人体头部作为个体标识，设置头部检测框，根据头部特征和对应的头部检测框的位置，对现场视频中的当前个体进行持续跟踪，并进行个体跟踪匹配，得到个体的匹配结果，若匹配结果为新出现个体或已有个体，则采集当前个体的多张单帧图像，否则结束蒙面人脸识别方法；

S3-3：对当前单帧图像进行人脸检测，检测到人脸后，使用蒙面识别模型对当前单帧图像进行正脸检测；

S3-4：检测到正脸后，获取当前单帧图像的成像模糊度，并根据成像模糊度适应性调整蒙面识别模型的置信度阈值，使用调整后的蒙面识别模型对当前单帧图像的进行人脸识别，得到当前帧图像的人脸识别结果；

S3-5：根据步骤S3-2中采集的多张单帧图像，更新当前单帧图像，返回步骤S3-3，直至采集的所有单帧图像都进行人脸识别，得到多个人脸识别结果；

S3-6：根据多个人脸识别结果，基于多帧聚类预测机制，获得当前个体最终的识别结果。

进一步地，步骤S3-3中，进行人脸检测，人脸检测结果为：当前单帧图像为蒙面人脸图像或当前单帧图像为非蒙面人脸图像。

进一步地，步骤S3-3中，对非蒙面人脸图像进行正脸检测，得到非蒙面正脸，并对非蒙面正脸直接进行人脸识别，得到识别结果；

对蒙面人脸图像进行正脸检测，得到蒙面正脸，进入步骤S3-4，根据蒙面正脸获取当前单帧图像的成像模糊度。

本发明的有益效果为：

1)本发明监控场景下的蒙面识别准确度相对较高，能够满足大部分监控场景下的自适应蒙面人脸识别，避免了场景影响；

2)本发明的残差结构能有效防止梯度消失，因此学习目标特征能力很强，运行速度也比较理想，提高了识别效率；

3)针对监控场景下的口罩/面罩遮挡这一特殊人脸场景改进了神经网络，使用了增强型的双向LSTM网络，大大提高了算法的鲁棒性，增强监控场景下的蒙面个体识别能力，避免了人脸识别神经网络结构复杂；

4)本发明的多帧聚类预测的后处理逻辑，提高蒙面识别预测的准确率，提高了识别准确率。

本发明的其他有益效果将在具体实施方式中进行详细说明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是蒙面人脸识别方法流程图；

图2是LSTM长短时记忆模块结构图像。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本发明公开的功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本发明阐述的实施例中。

应当理解，本发明使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。若术语“包括”、“包括了”、“包含”和/或“包含了”在本发明中被使用时，指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性，并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解，还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如，取决于所涉及的功能/动作，实际上可以实质上并发地执行，或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出***，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1

如图1所示，本实施例提供一种蒙面人脸识别方法，包括如下步骤：

S1：根据非蒙面人脸图像数据，获取蒙面人脸图像数据集；

使用多样和交互的面部图像操作MaskGAN方法对非蒙面人脸图像数据进行处理，得到蒙面人脸图像数据集；

非蒙面人脸数据图像使用现有的8大类32小类共200万人脸数据库进行二次自动仿射变换标注，通过人脸68个点对，与仿射变换，进行自动戴口罩，使用多样和交互的面部图像操作MaskGAN方法对非蒙面人脸图像数据进行处理，包括：

1)口罩遮挡的面积(以5％作为遮挡比例间隔，划分了5％-80％共16类不同的挡位)；

2)为了适应多款式口罩对人脸识别的影响，针对性采用N95口罩样式、普通医用口罩、普通口罩、面巾分类进行处理；

3)为了适应不同颜色口罩/面巾对人脸识别的影响，使用蓝色、灰色、白色以及黑色的四种颜色的N95口罩样式、普通医用口罩、普通口罩以及面巾分类混合进行处理；

S2：基于神经网络、置信度适应机制以及多帧聚类预测机制，使用蒙面人脸图像数据集，建立蒙面识别模型，多帧聚类预测的后处理逻辑，提高蒙面识别预测的准确率，提高了识别准确率；

神经网络为残差网络，残差网络设置有LSTM长短时记忆模块，如图2所示，LSTM长短时记忆模块设置有遗忘门，残差结构能有效防止梯度消失，因此学习目标特征能力很强，运行速度也比较理想，提高了识别效率，针对监控场景下的口罩/面罩遮挡这一特殊人脸场景改进了神经网络，使用了增强型的双向LSTM网络，大大提高了算法的鲁棒性，增强监控场景下的蒙面个体识别能力，避免了人脸识别神经网络结构复杂；

遗忘门的公式为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

式中，f_t为遗忘门函数；σ(*)为sigmoid激活函数；h_t-1为前一个时间步(t-1)的输出；t为时间步指示量；x_t为当前时间步的输入；b_f为卷积层偏置项；W_f为卷积层权重；整个计算过程就是把前一个时间步的输出和当前时间步的输入通过卷积层融合，然后通过sigmoid函数激活，输出限制在0-1之间，0表示全部遗忘，1表示全部保留；

神经网络的注意力模块的公式为：

e_ij＝tanh((h_s·w)+b)*u

式中，e_ij为归一化前的注意力权重；tanh(*)为双曲正切函数；h_s为各个时间步的输出；w为卷积权重；b为卷积偏置项；u为缩放系数；i为注意力指示量；j为单向时间步；

神经网络的注意力权重的公式为：

式中，α_ij为归一化后的注意力权重；e_ij为归一化前的注意力权重；i为注意力指示量；j为单向时间步；k为时间步指示量；n为单向时间步数；本次计算即进行归一化指数softmax函数激活，输出限制在0-1之间，得到注意力分布；

神经网络的经过注意力加权后的输出特征的公式为：

式中，o_ij为经过注意力加权后的输出特征；α_ij为归一化后的注意力权重；i为注意力指示量；j为单向时间步；n为单向时间步数；h_j为各个时间步的输出；

置信度适应机制为：根据输入当前模型的人脸图像数据集的成像模糊度适应性调整当前模型的置信度阈值，成像模糊度增大则调低置信度阈值以获得单次识别结果，避免无法识别的成像问题；

步骤S2的具体步骤为：

S2-1：将蒙面人脸图像数据集分为训练集和测试集；

S2-3：将置信度适应机制和多帧聚类预测机制加入初始的蒙面识别模型，并使用测试集对初始的蒙面识别模型进行优化，得到并输出最优的蒙面识别模型；

S3：实时获取现场视频，并根据现场视频，使用蒙面识别模型进行识别，得到识别结果，监控场景下的蒙面识别准确度相对较高，能够满足大部分监控场景下的自适应蒙面人脸识别，避免了场景影响，具体步骤为：

进行人脸检测，人脸检测结果为：当前单帧图像为蒙面人脸图像或当前单帧图像为非蒙面人脸图像；

对非蒙面人脸图像进行正脸检测，得到非蒙面正脸，并对非蒙面正脸直接进行人脸识别，得到识别结果；

对蒙面人脸图像进行正脸检测，得到蒙面正脸，进入步骤S3-4，根据蒙面正脸获取当前单帧图像的成像模糊度；

成像模糊度计算规则：

1)像素RGB转灰度值计算：

RGB≥灰度值Gray_n＝R*0.3+G*0.59+B*0.11；

2)计算灰度图片各像素点的平均值：

μ＝∑Gray_n/N，其中，μ为灰度图片各像素点的平均值；Gray_n为灰度图片的灰度值；N为像素点总数；

3)计算整个灰度图片的灰度值方差：

S²＝∑(Gray_n-μ)²/(N-1)，其中，S²为灰度值方差，S越小，成像越模糊；

本实施例中，10≤S＜20，调整置信度权重为0.8，则当前置信度阈值为0.8*预设置信度阈值；

20≤S＜30，调整置信度权重为0.9，则当前置信度阈值为0.9*预设置信度阈值；

30≤S，调整置信度权重为1，则当前置信度阈值为1*预设置信度阈值，S＝30为模糊检测的最优临界值；

S3-5：根据步骤S3-2中采集的多张单帧图像，更新当前单帧图像，即将下一张单帧图像作为当前单帧图像，返回步骤S3-3，直至采集的所有单帧图像都进行人脸识别，得到多个人脸识别结果；

S3-6：根据多个人脸识别结果，基于多帧聚类预测机制，获得当前个体的身份信息，即最终的识别结果，在持续的个体跟踪和识别中不断更新个体ID，在跟踪初期，可能由于蒙面遮挡、距离远以及光线不足等不利因素导致识别结果不断变动，但在持续跟踪后，识别结果会趋于稳定，得出准确的身份信息，识别成功率大大提高；

多帧聚类预测机制为：

匹配到的个体P₀-P_k的置信度分别为：

个体P₀包含m0个结果：

个体P₁包含m1个结果：

……

个体P_k包含mk个结果：

则各个个体的识别结果帧间增强相似度为：

则R(F₀-F_n)＝Max(∑P₀，∑P₁，...，∑P_k)所对应的个体P；

即在持续跟踪识别中可能匹配到多个个体，而该机制根据匹配到的次数和置信度进行综合预测，计算不同个体的最终置信度进行比较，置信度对应最大帧间增强相似度∑P_j的个体P即为输出结果的个体R(F_i)，其中，j＝0，1，...，k，i＝0，1，...，n，识别结果随着持续的跟踪会变得更加稳定，该个体的身份信息会越来越确定。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所描述的实施例仅仅是示意性的，若涉及到作为分离部件说明的单元，其可以是或者也可以不是物理上分开的；若涉及到作为单元显示的部件，其可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种蒙面人脸识别方法，其特征在于：包括如下步骤：

S1：根据非蒙面人脸图像数据，获取蒙面人脸图像数据集；

S3：实时获取现场视频，并根据现场视频，使用蒙面识别模型进行识别，得到识别结果；

所述步骤S2中，所述神经网络为残差网络，所述残差网络设置有LSTM长短时记忆模块，所述LSTM长短时记忆模块设置有遗忘门；

所述步骤S2中，置信度适应机制为：根据输入当前模型的人脸图像数据集的成像模糊度适应性调整当前模型的置信度阈值；

所述步骤S3的具体步骤为：

S3-6：根据多个人脸识别结果，基于多帧聚类预测机制，获得当前个体最终的识别结果；

多帧聚类预测机制为：

匹配到的个体P₀-P_k的置信度分别为：

个体P₀包含m0个结果：

个体P₁包含m1个结果：

……

个体P_k包含mk个结果：

则各个个体的识别结果帧间增强相似度为：

...

则R(F₀-F_n)＝Max(∑P₀,∑P₁,...,∑P_k)所对应的个体P。

2.根据权利要求1所述的一种蒙面人脸识别方法，其特征在于：所述步骤S1中，使用多样和交互的面部图像操作MaskGAN方法对非蒙面人脸图像数据进行处理，得到蒙面人脸图像数据集。

3.根据权利要求1所述的一种蒙面人脸识别方法，其特征在于：所述步骤S2中，所述遗忘门的公式为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

4.根据权利要求1所述的一种蒙面人脸识别方法，其特征在于：所述步骤S2中，所述神经网络的输出公式为：

5.根据权利要求1所述的一种蒙面人脸识别方法，其特征在于：所述步骤S2的具体步骤为：

S2-1：将蒙面人脸图像数据集分为训练集和测试集；

6.根据权利要求1所述的一种蒙面人脸识别方法，其特征在于：所述步骤S3-3中，进行人脸检测，人脸检测结果为：当前单帧图像为蒙面人脸图像或当前单帧图像为非蒙面人脸图像。

7.根据权利要求6所述的一种蒙面人脸识别方法，其特征在于：所述步骤S3-3中，对非蒙面人脸图像进行正脸检测，得到非蒙面正脸，并对非蒙面正脸直接进行人脸识别，得到识别结果；