CN117197904A

CN117197904A - 人脸活体检测模型的训练方法、人脸活体检测方法及装置

Info

Publication number: CN117197904A
Application number: CN202310339456.XA
Authority: CN
Inventors: 王珂尧; 张国生; 岳海潇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-12-08

Abstract

本公开提供了人脸活体检测模型的训练方法、人脸活体检测方法及装置，涉及人工智能技术领域，尤其涉及图像处理、计算机视觉等技术领域，具体涉及人脸活体检测模型的训练方法及装置、人脸活体检测方法及装置、电子设备、存储介质和计算机程序产品。具体实现方案为：基于人脸活体检测模型从各样本图像中提取出人脸特征，并确定人脸活体检测结果；从各样本图像的文本描述中提取出文本特征；该人脸特征和文本特征用于构建样本对，基于多个样本对中人脸特征和文本特征之间的对比损失，以及人脸活体检测结果和标注结果之间的分类损失，确定总损失值；基于总损失值调整人脸活体检测模型。本公开实施例能够提高人脸活体检测模型的泛化性和精度。

Description

人脸活体检测模型的训练方法、人脸活体检测方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及图像处理、计算机视觉等技术领域，具体涉及人脸活体检测模型的训练方法及装置、人脸活体检测方法及装置、电子设备、存储介质和计算机程序产品。

背景技术

人脸活体检测技术是基于人的脸部特征信息进行身份识别的一种生物识别技术。很多产品支持人脸活体检测技术，如金融、教育等领域产品，需要人脸活体检测技术对用户身份进行识别。随着技术的进一步成熟和社会认同度的提高，需要进一步提高人脸活体检测技术的准确度。

发明内容

本公开提供了人脸活体检测模型的训练方法及装置、人脸活体检测方法及装置、电子设备、存储介质和计算机程序产品。

根据本公开的一方面，提供了一种人脸活体检测模型的训练方法，包括：

基于人脸活体检测模型从样本集的各样本图像中分别提取出用于构建样本对的人脸特征，并基于人脸活体检测模型分别确定各样本图像的人脸活体检测结果；该样本集中包括含有人脸活体的第一类样本图像和不含有人脸活体的第二类样本图像；以及，

从各样本图像的文本描述中分别提取出用于构建样本对的文本特征；其中，每个样本对中包括任一样本图像的人脸特征和任一样本图像的文本特征；

基于多个样本对中人脸特征和文本特征之间的对比损失，以及各样本图像的人脸活体检测结果和标注结果之间的分类损失，确定总损失值；该对比损失用于缩小同一样本图像的人脸特征和文本特征之间的距离，并增大第一类样本图像和第二类样本图像的人脸特征之间的距离；

基于总损失值调整人脸活体检测模型的可学习参数，在人脸活体检测模型满足收敛条件的情况下，得到已训练人脸活体检测模型。

根据本公开的另一方面，提供了一种人脸活体检测方法，应用于前述得到的已训练人脸活体检测模型，包括：

获取待检测图像；

将待检测图像输入已训练人脸活体检测模型，得到待检测图像的人脸活体检测结果。

根据本公开的另一方面，提供了一种人脸活体检测模型的训练装置，包括：

第一提取模块，用于基于人脸活体检测模型从样本集的各样本图像中分别提取出用于构建样本对的人脸特征，并基于人脸活体检测模型分别确定各样本图像的人脸活体检测结果；该样本集中包括含有人脸活体的第一类样本图像和不含有人脸活体的第二类样本图像；以及，

第二提取模块，用于从各样本图像的文本描述中分别提取出用于构建样本对的文本特征；其中，每个样本对中包括任一样本图像的人脸特征和任一样本图像的文本特征；

损失确定模块，用于基于多个样本对中人脸特征和文本特征之间的对比损失，以及各样本图像的人脸活体检测结果和标注结果之间的分类损失，确定总损失值；该对比损失用于缩小同一样本图像的人脸特征和文本特征之间的距离，并增大第一类样本图像和第二类样本图像的人脸特征之间的距离；

第一调整模块，用于基于总损失值调整人脸活体检测模型的可学习参数，在人脸活体检测模型满足收敛条件的情况下，得到已训练人脸活体检测模型。

根据本公开的另一方面，提供了一种人脸活体检测装置，应用于前述装置得到的已训练人脸活体检测模型，包括：

获取模块，用于获取待检测图像；

检测模块，用于将待检测图像输入已训练人脸活体检测模型，得到待检测图像的人脸活体检测结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

本公开实施例中，引入文本描述来进行辅助监督和判断，使得人脸活体检测模型在学习过程中通过文本描述能够学习到更多适用于人脸活体检测的特征，由此，大大提高了人脸活体检测算法的准确率和泛化性。此外，本公开通过分类损失结合对比损失，能够加快网络训练收敛速度，提高人脸活体检测算法的泛化性和精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的人脸活体检测模型的训练方法的流程示意图；

图2a是根据本公开一实施例的相似度矩阵的示意图；

图2b是根据本公开另一实施例的相似度矩阵的示意图；

图2c是根据本公开另一实施例的相似度矩阵的示意图；

图3根据本公开一实施例的人脸活体检测方法的流程示意图；

图4根据本公开另一实施例的人脸活体检测模型的训练方法的整体流程图；

图5根据本公开一实施例的人脸活体检测模型的训练装置的结构示意图；

图6根据本公开另一实施例的人脸活体检测模型的训练装置的结构示意图；

图7根据本公开另一实施例的人脸活体检测装置的结构示意图；

图8是用来实现本公开实施例的人脸活体检测模型的训练方法/人脸活体检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人脸活体检测技术是人脸识别***的基础组成模块，保证人脸识别***的安全性。相关技术中，人脸活体检测算法实现方案众多，按照技术路线，主要分为两大类：第一类方法是基于人脸手工特征的分类方法，第二类方法是使用神经网络的深度学习方法。

第一类方法有基于局部二值模式(Local binary pattern，LBP)、方向梯度直方图(Histogram of oriented gradients，HOG)、尺度不变特征转换(Scale-invariantfeature transform，SIFT)等方法。这类方法首先基于手工设计的特征提取器提取人脸特征，然后基于支持向量机(Support Vector Machine，SVM)的传统分类器进行特征分类，进而得到人脸活体检测结果。

第二类方法主要包括卷积神经网络的活体判别、基于长短期记忆网络(LongShort Term Memory，LSTM)的活体判别等。第二类方法中均使用深度学习的神经网络进行人脸特征提取及分类。深度学习方法能够使得神经网络提取到稳定性更强的人脸特征，相比传统的第一类方法在精度上有大幅提升。

相关技术中，在人脸活体检测为二分类任务的情况下，前述第一类方法和第二方法中的标签仅有正负样本两类，即包含人脸活体的图像为正样本，不包含人脸活体的图像为负样本。仅基于二分类进行训练，可能导致训练的人脸活体检测算法存在泛化性差，对于未知的攻击样本及方式效果下降。攻击样本，后文亦称之为攻击样本图像，也越来越多种多样。如包括，视频攻击、打印照片攻击、面具攻击、五官遮挡攻击等。其中，视频攻击可以理解为采用电子屏幕中的人脸图像进行人脸活体检测，打印照片攻击可以理解为采用纸质照片上的人脸图像进行人脸活体检测，面具攻击可以理解为将人脸图像制作成面具来进行人脸活体检测，该面具可能是简单的面具，也可能是复杂的头模，五官遮挡攻击可以理解为通过遮挡人脸图像中部分内容，达到欺骗企图通过人脸活体检测的目的。

正是由于攻击样本图像复杂多样，用简单的二分类监督训练，得到的模型很难对诸多攻击方式，难以取得很好的防御效果。

有鉴于此，本公开提出一种人脸活体检测模型的训练方法，引入了文本描述进行辅助监督以弥补二分类的信息量较少的不足，促使人脸活体检测模型可以基于文本描述学习到更多可辨别的特征，进而提高人脸活体检测的精度。该人脸活体检测模型的训练方法，如图1所示，包括：

S101，基于人脸活体检测模型从样本集的各样本图像中分别提取出用于构建样本对的人脸特征，并基于人脸活体检测模型分别确定各样本图像的人脸活体检测结果；该样本集中包括含有人脸活体的第一类样本图像和不含有人脸活体的第二类样本图像。

其中，用于训练的样本集中包括含有人脸活体的第一类样本图像和不含有人脸活体的第二类样本图像。各样本图像的人脸活体检测结果可以是二分类结果，如第一类样本图像可以称之为活体样本图像，活体样本图像可以理解为包含真实人脸活体画面的图像。第二类样本图像可以称之为攻击样本图像，该攻击样本图像可以理解为伪造的人脸图像。该攻击样本图像中虽然包含人脸画面，但该人脸画面并非真实人脸活体画面，而是通过以上阐述的攻击方式得到的图像。

此外，为了能够适应不同的攻击方式，提高人脸活体检测模型的泛化能力，本公开实施例中可以使用多种攻击方式的攻击样本图像。在此基础上，样本图像的人脸活体检测结果也可以是多分类结果，例如不仅能够分类出活体样本图像和攻击样本图像，并能够识别攻击样本图像的具体攻击方式。实施时，由于攻击样本图像的类型可以是多种多样的、根据技术手段变化的，本公开实施例可以根据需求选择合适的攻击样本图像的类型，甚至随着需要增加攻击样本图像的类型。

在一些实施例中，人脸活体检测模型可以使用ViT-Base模型(VisualTransformer-Base，图像编码器)。因此，实施时需要将样本图像切分为多个图像块，得到样本图像中对应的图像块序列；根据图像块序列，利用ViT-Base模型的线性投影层，确定图像块序列的向量序列；根据图像块序列的向量序列和分类向量，确定人脸特征。

在一种实施例中，可以将样本图像切分成196个尺寸为16x16的固定大小的图像块(patch)，得到图像块序列，即输入序列的长度为196，每个patch的维度为16*16*3＝768。将得到的图像块序列输入线性投射层，获取到196个图像块各自的向量序列，每个图像块的向量序列的维度是768。由于是分类任务，因此在输入序列中加入一个分类向量(ClassToken)后，将输入序列输入到ViT-Base模型中，基于ViT-Base模型输出的分类向量得到人脸活体检测结果。实施时，可以将样本图像输入ViT-Base模型进行编码处理，得到人脸特征。

S102，从各样本图像的文本描述中分别提取出用于构建样本对的文本特征；其中，每个样本对中包括任一样本图像的人脸特征和任一样本图像的文本特征。

其中，文本描述可以由文本描述生成模型生成，也可以由人工生成，本公开实施例对此不进行限定。对于包含人脸活体的样本图像，其文本描述可以是图像内容，该图像内容可以是人脸相关属性，比如性别，年龄，头发，以及表情等；对于攻击样本图像，其文本描述可以包含图像内容，以及攻击的关键词，该关键词例如是攻击方式，比如屏幕、手机、纸张、头模、人造面具等。

在一些实施例中，可以基于文本特征提取网络对各样本图像的文本描述进行特征提取。其中文本特征提取网络可以使用Transformer模型结构，本公开实施例对此不进行限定。

S103，基于多个样本对中人脸特征和文本特征之间的对比损失，以及各样本图像的人脸活体检测结果和标注结果之间的分类损失，确定总损失值；该对比损失用于缩小同一样本图像的人脸特征和文本特征之间的距离，并增大第一类样本图像和第二类样本图像的人脸特征之间的距离。

样本对可以包括正样本对和负样本对。对比损失能够使得正样本对中的人脸特征和文本特征之间的距离更近，而使得负样本对中的人脸特征和文本特征之间的距离更远。应用到本公开实施例中，该对比损失可以使得同一样本图像的人脸特征和文本特征之间距离更近，并能够使得第一类样本图像和第二类样本图像之间的人脸特征距离更远，由此有利于人脸活体检测模型学会提取有利于分辨人脸活体或攻击样本图像的人脸特征。

其中，可以将人脸特征输入全连接层和softmax(激活层)，获取到人脸活体检测结果，基于人脸活体检测结果和标注结果得到分类损失，本公开对获取分类损失的方式不进行限定。

在一些实施例中，可以使用对比损失和分类损失的和值，确定总损失值，其总损失值如表达式(1)所示：

L＝L1+L2 (1)

其中，L表示总损失值，L1表示对比损失，L2表示分类损失。

也可以使用对比损失和分类损失进行加权求和，获取总损失值，本公开对此不进行限定。

S104，基于总损失值调整人脸活体检测模型的可学习参数，在人脸活体检测模型满足收敛条件的情况下，得到已训练人脸活体检测模型。

该收敛条件可以为总损失值趋于稳定或达到预设迭代次数。

本公开实施例中，引入文本描述来辅助监督和学习，使得人脸活体检测模型在学习过程中通过文本描述能够获得分类之外的知识，由此有助于学习到更多适用于人脸活体检测的特征，因此，引入文本描述能够提高人脸活体检测算法的准确率和泛化性。此外，本公开还引入了人脸特征和文本特征之间的对比损失，通过对比损失可以实现将属于同一样本图像的人脸特征和文本特征之间距离逐渐靠近，并使包含人脸活体的样本图像和不包含人脸活体的样本图像之间的人脸特征距离变大，以使人脸活体检测模型能够学习到更多有辨别度的特征，以便于更好的识别人脸活体和非人脸活体。而且，通过分类损失结合对比损失，能够加快网络训练收敛速度、提高人脸活体检测算法的泛化性和精度。

在一些实施例中，第二类样本图像包括以下至少一种类型的图像：电子屏幕显示的人脸图像、纸质照片的电子图像、二维面具的电子图像、三维头模的电子图像、证件照的电子图像攻击。其中，每种类别分别为一种攻击方式。需要说明的是，除了上述几种攻击方式外，可以基于攻击手段的变化增加攻击方式，本公开实施例对不进行限定。

在采用单一的攻击方式的攻击样本图像时，人脸活体检测模型能够对该攻击方式进行深度的学习，学会识别该攻击方式的图像。当采用多个攻击方式的攻击样本图像训练人脸活体检测模型的时候，基于此方式训练得到的人脸活体检测模型能够有效的防住目前大多数常见的攻击。能够提升人脸活体检测模型的性能、帮助以人脸活体检测技术为基础的诸多应用提升检测效果和用户体验，有利于业务项目的进一步推广。

在一些实施例中，针对任一样本图像，其文本描述包括：该样本图像的图像内容和提示词，该提示词用于指示样本图像是否包含人脸活体。实施时，针对攻击样本图像，该提示词还可以指示具体的攻击方式。

举例来说，样本图像的图像内容可以为“一个来自手机屏幕的男孩图像”，该样本图像的提示词可以为手机屏幕，手机屏幕代表了攻击方式。图像内容和提示词之间可以使用指定符号将二者连接。在指定符号为“-”的情况下，该样本图像的文本描述可以为“一个来自手机屏幕的男孩图像-手机屏幕”。当然，可以理解的是，指定符号也可以为“～”、“&”等其他符号，本公开实施例中对此不进行限定。

本公开实施例中，通过提示词能够区分包含人脸活体的样本图像和攻击样本图像，强调了文本描述中的重点信息，使得模型能够快速学习到攻击样本图像的特征，提高了模型的学习能力。

本公开实施例中不仅使用提示词来增加攻击样本图像的学习权重，还可以进一步通过重复提示词增加提示词在文本描述中的权重，以便于更好的学习到攻击样本图像的特征。

此外，本公开实施例中，还可以进一步采用随机掩码的方式增加提示词在文本描述中的权重。本公开实施例示例性的提供以下两种随机掩码方式。

随机掩码方式1)，针对各样本图像，从样本图像的文本描述中提取出用于构建样本对的文本特征，可实施为：

步骤A1，对样本图像的文本描述进行分词处理，获取文本描述中的多个字段。

其中，可以使用正向最大匹配法(forward maximum matching method，FMM)对文本描述进行分词操作，假定分词词典中的最长的词有i个汉字字符(i≥1)，则会使用文本描述中的当前字符串中的前i个字符作为候选字段，用于查找分词字典。若字典中存在与候选字段相同的i个字符的词，则匹配成功，则该为候选字段将作为一个字段被切分出来。如果词典中找不到这样的一个i个字符的词，则匹配失败，则将候选字段中的最后一个字去掉，对剩下的字符重新进行匹配处理，如此进行下去，直到整个句子匹配成功，即切分出一个词或剩余字串的长度为零为止。除了使用上述FMM方法对其进行分词处理外，还可以使用逆向最大匹配法(Backward maximum matching method，BMM)以及双向最大匹配法等对其进行分词处理，本公开对此不进行限定。

步骤A2，从多个字段中识别出提示词。

如前文阐述的，该提示词用于指示样本图像是否包含人脸活体，甚至可以指示具体的攻击方式。

在文本描述中出现与预设关键字段匹配的字段的情况下，将该字段确定为提示词。

步骤A3，对多个字段中，除提示词之外的字段进行随机掩码处理，得到中间文本。

在一些实施例中，可以使用掩码语言模型(Masked Language Model，MLM)进行随机掩码处理，本公开对此不进行限定。

步骤A4，对中间文本进行特征提取，得到样本图像的文本特征。

本公开实施例中，对文本描述进行分词处理，对提示词之外的字段进行随机掩码处理，获取中间文本，基于该方式可以提高提示词在文本描述中的权重，进而使得提取到的文本特征能够准确的描述攻击样本图像的特征，以便于能够给更好的辅助训练人脸活体检测模型，由此提高人脸活体检测模型的泛化性和精度。

随机掩码方式2)针对各样本图像，从样本图像的文本描述中提取出用于构建样本对的文本特征，还可实施为：

步骤B1，对文本描述中的指定位置进行随机掩码处理，得到中间文本；该指定位置为不包含提示词的位置，提示词用于指示样本图像是否包含人脸活体。

步骤B2，对中间文本进行特征提取，得到样本图像的文本特征。

本公开实施例中，对提示词之外的字段进行随机掩码处理，获取中间文本，基于该方式可以提高提示词在文本描述中的权重，进而使得提取到的文本特征更能体现样本图像的类别，提高人脸活体检测模型的泛化性和精度。

在一些实施例中，在文本特征是基于文本特征提取网络得到的情况下，为了使得提取的文本特征能够更好的辅助训练人脸活体检测模型，本公开实施例中在基于总损失值调整人脸活体检测模型的情况下，也可以基于该总损失值调整文本特征提取网络的可学习参数。在人脸活体检测模型达到收敛条件的情况下，也可认为文本特征提取网络也达到收敛条件。因此结束对文本特征提取网络的训练。

本公开实施例中，基于总损失值可以达到同时训练两个模型(即人脸活体检测模型和文本特征提取网络)的目的，基于该方式可以使得文本特征提取网络以辅助训练人脸活体检测模型为最终目标，能够优化出适合该目标的文本特征提取网络，使其提取出合适的文本特征，以辅助训练人脸活体检测模型。最终，使得人脸活体检测模型能够基于文本特征学习到攻击样本图像的人脸特征，并学习到人脸活体的人脸特征，由此提高人脸活体检测模型的泛化能力和识别精度。

在一些实施例中，在得到人脸特征和文本特征的基础上，确定多个样本对中人脸特征和文本特征之间的对比损失，可实施为：确定多个样本对中人脸特征和文本特征之间的相似度；基于多个样本对中人脸特征和文本特征之间的相似度，确定对比损失。

本公开实施例中每个样本对中均包括一个人脸特征和一个文本特征，每个样本对的人脸特征和文本特征均可以计算相似度。由此通过对比损失，使得同一样本图像的人脸特征和文本特征之间的相似度变高，并使得特定样本对中人脸特征和文本特征之间的相似度降低。该特定样本对指人脸特征和文本特征来自不同样本图像，且其中一个样本图像包含人脸活体，另一个样本图像为攻击样本图像。

本公开实施例中，基于人脸特征和文本特征的相似度确定对比损失，能够使得人脸活体检测模型更好的学习到人脸活体的人脸特征和攻击样本图像的人脸特征，以使得人脸活体检测模型达到更好的训练效果。

在一些实施例中，确定人脸特征和文本特征之间的相似度的方式可实施为：

步骤C1，基于各样本图像的文本特征，构建文本特征矩阵；以及，基于各样本图像的人脸特征，构建人脸特征矩阵。

在一些实施例中，可以将所有样本图像分为多个批次(batch)，每个批次分别构建文本特征矩阵以及人脸特征矩阵。针对同一个批次内的样本图像，可以将每个文本特征作为列向量，构建出文本特征矩阵。也即，文本特征矩阵中一列元素为一个样本图像的文本特征。类似的，同一批次内各样本图像的人脸特征作为行向量，构建人脸特征矩阵。也即，人脸特征矩阵中一行元素为一个样本图像的人脸特征。

当然，在其它的实施方式中，可以将文本特征作为行向量构建文本特征矩阵；同时将人脸特征作为列向量构建人脸特征矩阵。

步骤C2，将文本特征矩阵和人脸特征矩阵进行矩阵乘法运算，得到相似度矩阵。

以文本特征为列向量构建文本特征矩阵，人脸特征作为行向量构建人脸特征矩阵为例，将文本特征矩阵和人脸特征矩阵进行矩阵乘法运算，得到相似度矩阵如图2a所示。

步骤C3，从相似度矩阵中筛选出多个样本对的人脸特征和文本特征之间的相似度，用于确定对比损失。

本公开实施例中，基于人脸特征和文本特征，构建相似度矩阵，后续可以根据该相似度矩阵，快速筛选出多个样本对，从而可以利用该筛选出的多个样本对计算对比损失，进而可以加快网络训练收敛速度，提高人脸活体检测算法的泛化性和精度。

在一些实施例中，将多个样本对分为多个正样本对和多个负样本对。其中，正样本对为采用同一样本图像的人脸特征和文本特征构建的样本对；负样本对为采用不同样本图像的人脸特征和文本特征构建的样本对。基于各样本图像的文本特征，构建文本特征矩阵；以及，基于各样本图像的人脸特征，构建人脸特征矩阵；将文本特征矩阵和人脸特征矩阵进行矩阵乘法运算，得到相似度矩阵；从相似度矩阵中的正样本对和负样本对的相似度，确定对比损失。

在另一些实施例中，由于人脸特征和文本特征的丰富度有限，一个批次中相同类别的样本图像可能存在相似的文本描述。因此可以将多个样本对分为多个正样本对和多个负样本对。其中，正样本对为采用同一样本图像的人脸特征和文本特征构建的样本对；负样本对为采用不同类别的样本图像的人脸特征和文本特征构建的样本对。从相似度矩阵中筛选出多个样本对的人脸特征和文本特征之间的相似度，可实施为：从相似度矩阵中筛选出正样本对的相似度以及负样本对的相似度，得到多个样本对的人脸特征和文本特征之间的相似度。

不同类别可以为人脸活体图像以及不同类型的攻击方式。其中攻击方式的不同类型可以为前文所阐述的电子屏幕显示的人脸图像、纸质照片的电子图像、二维面具的电子图像、三维头模的电子图像、证件照的电子图像等。

举例来说，文本特征A和人脸特征A属于样本图像A，该样本图像A属于人脸活体图像。文本特征B和人脸特征B属于样本图像B，该样本图像B也属于人脸活体图像。文本特征C和人脸特征C属于样本图像C，该样本图像C属于电子屏幕显示的人脸图像。如图2b所示，样本对1包括文本特征A和人脸特征A，样本对2包括文本特征A和人脸特征B，样本对3包括文本特征C和人脸特征B。因此样本对1为正样本，样本对3为负样本。对于样本对2，其包含的文本特征A和人脸特征B来自属于同一类型的不同样本图像，该类样本对即为非正非负样本对，非正非负样本对均不参与对比损失的计算。

本公开实施例中，由于所得到的文本特征和人脸特征数量过多且人脸特征和文本特征的丰富度有限，基于文本特征矩阵以及人脸特征矩阵计算对比损失的数量也呈指数级增长。为了减轻计算量，可以将同一样本图像的文本特征和人脸特征定义为正样本对，将不同类别的样本图像的文本特征和人脸特征定义为负样本对，从而将非正非负样本对筛选掉。基于正样本对以及负样本对进行对比损失计算，可以减少计算量，使人脸活体检测模型学习有区别的特征，实现快速收敛，以达到提高人脸活体检测模型的准确率和泛化性的目的。

在另一种实施例中，从相似度矩阵中筛选出多个样本对的人脸特征和文本特征之间的相似度，还可实施为：从相似度矩阵中，筛选出满足以下预设要求集合中的任一预设要求的相似度，得到多个样本对的人脸特征和文本特征之间的相似度；其中，预设要求集合包括：相似度大于第一阈值，或相似度小于第二阈值。

以第一阈值为90％，第二阈值为60％为例。文本特征A和人脸特征A属于样本图像A，该样本图像A属于人脸活体图像。文本特征B和人脸特征B属于样本图像B，该样本图像B也属于人脸活体图像。文本特征C和人脸特征C属于样本图像C，该样本图像C属于电子屏幕显示的人脸图像。如图2b所示，样本对1包括文本特征A和人脸特征A，样本对2包括文本特征A和人脸特征B，样本对3包括文本特征C和人脸特征B。因此样本对1的相似度为100％，样本对2的相似度为80％，样本对3的相似度为30％。则该种情况下，样本对1和样本对3即为符合预设条件的样本对。

本公开实施例中，由于所得到的文本特征和人脸特征数量过多且人脸特征和文本特征的丰富度有限，基于文本特征矩阵以及人脸特征矩阵计算对比损失的数量也呈指数级增长。为了减轻计算量，可以将相似度处于中间范围的样本对筛选掉。基于相似度从相似度矩阵中筛选出符合预设要求的样本对，基于这些样本对进行对比损失计算，可以简单快速的找到符合条件的样本对，通过减少计算量，使人脸活体检测模型学习有区别的特征，实现快速收敛，以达到提高人脸活体检测模型的准确率和泛化性的目的。

在一些实施例中，在获取到多个样本对的人脸特征和文本特征之间的相似度后，可以将该样本对的相似度转成独热编码(one-hot)形式，样本对的相似度为1的预测标签即为正样本对，样本对的相似度为0的预测标签即为负样本对。进而可以获取到每个样本对的预测标签，基于预测标签与标注标签的交叉熵计算对比损失。

文本特征A和人脸特征A属于样本图像A，文本特征B和人脸特征B属于样本图像B。该样本图像A，样本图像B属于人脸活体图像。文本特征C和人脸特征C属于样本图像C，文本特征D和人脸特征D属于样本图像D。该样本图像C和样本图像D属于电子屏幕显示的人脸图像。如图2c所示，将基于前述方式筛选到的多个样本对的相似度转成one-hot形式，1表示该样本对为正样本对，即为该样本对中的文本特征和人脸特征属于同一样本图像，0表示该样本对为负样本对，即为该样本对中的文本特征和人脸特征属于不同类型的样本图像。

在一些实施例中，为了提高人脸活体检测模型的检测精度，针对各样本图像，需要对该样本图像的原始图像进行预处理操作以得到该样本图像。其预处理操作可实施为：

步骤D1，获取样本图像的原始图像。

步骤D2，检测原始图像中目标人脸的位置信息，获取目标人脸在原始图像中的第一人脸区域。

其中，检测原始图像中目标人脸的位置信息可以通过人脸检测技术实现，本公开实施例对此不进行限定。

步骤D3，提取第一人脸区域内的人脸关键点。

其中可以基于人脸关键点检测模型确定第一人脸区域内的人脸关键点。由于人脸关键点信息受复杂场景的光照影响、清晰度等因素的影响较少，因此在通过人脸检测确定第一人脸区域后进一步根据人脸关键点信息来确定第二人脸区域，能够提高人脸框的准确性。

步骤D4，基于人脸关键点在原始图像中的位置信息，确定目标人脸在原始图像中的第二人脸区域。

步骤D5，基于第二人脸区域从原始图像中裁剪出样本图像。

举例来说，通过人脸关键点检测模型对第一人脸区域内的人脸关键点进行检测得到人脸的关键点坐标值，可以得到72个人脸关键点坐标，分别为(x₁,y₁)…(x₇₂,y₇₂)。根据人脸的关键点坐标值对目标人脸进行人脸对齐得到人脸图像。具体做法为，根据72个人脸关键点坐标得到x和y的最大最小值x_min，x_max，y_min，y_max，根据最大最小值可以确定一个人脸框，即为第二人脸区域，基于第二人脸区域从原始图像中裁剪出样本图像。

需要说明的是，关键点的数量不限定72个，也可以为其他数值，本公开对此不进行限定。

本公开实施例中，在对原始图像进行人脸检测得到目标人脸在原始图像中的第一人脸区域，并确定第一人脸区域后，进一步通过训练后的人脸关键点检测模型对该第一人脸区域图像进行处理，确定第一人脸区域的人脸关键点信息，之后再基于该人脸关键点信息确定矫正后的人脸框(即第二人脸区域)，基于第二人脸区域裁剪出样本图像。基于人脸关键点检测模型能够准确地确定待检测图片的人脸关键点信息，减少光照、颜色、复杂背景等因素对人脸活体检测的影响，从而进一步提高人脸活体检测的准确性。

在一些实施例中，为了更加贴近人脸活体检测的环境，基于第二人脸区域从原始图像中裁剪出样本图像，可实施为：将第二人脸区域进行放大处理，获取第三人脸区域；从原始图像中裁剪出第三人脸区域内的图像，得到样本图像。

其中放大处理可以理解为将第二人脸区域扩大预设倍数，再从原始图像中裁剪出第三人脸区域内的图像，得到样本图像。

本公开实施例中，通过扩大第二人脸区域，可以将人脸活体周围的背景包括进来，基于该方式以满足人脸活体检测情形所需的图像环境，使得训练得到的人脸活体检测模型具有泛化性，能适应不同环境下得到的样本图像。

在一些实施例中，由于样本图像之间存在差距，为了消除样本图像之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。简而言之，归一化的目的就是使得预处理的数据被限定在一定的范围内。对样本图像进行归一化处理可实施为：对样本图像中各像素点进行归一化处理。

归一化处理的方法可以为每个像素点的像素值减128再除以256，使每个像素点的像素值在[-0.5,0.5]之间。其中，前述数值可以基于实际情况设置，本公开实施例对此不进行限定。

在一些实施例中，为了进一步消除噪声对人脸活体检测的影响，可以对样本图像进行数据增强处理，获取多个样本图像。

其中，数据增强处理可以包括随机反转，随机裁剪等。数据增强处理可以使得人脸活体检测模型可以适应不同情况下的样本图像，提高人脸活体检测模型的泛化能力。

基于相同技术构思，本公开实施例中还提出了一种人脸活体检测方法，应用于前述方法得到的已训练人脸活体检测模型，如图3所示，包括：

S301，获取待检测图像。

S302，将待检测图像输入已训练人脸活体检测模型，得到待检测图像的人脸活体检测结果。

需要说明的是，文本描述仅在人脸活体检测模型的训练阶段使用，在得到已训练人脸活体检测模型后，则可以不使用文本描述。

本公开实施例中，通过前述方式得到的人脸活体检测模型对待检测图像进行检测，提高可以人脸活体检测结果的准确性。

为了便于理解，本公开实施例中提出的人脸活体检测模型的训练方法的整体流程图如图4所示，包括：

S401，获取原始图像。

S402，对原始图像进行人脸检测，获取第一人脸区域。

S403，对第一人脸区域进行关键点检测，获取人脸关键点。

S404，基于人脸关键点进行人脸对齐，获取样本图像。

该人脸对齐可理解为基于前文阐述的第三人脸区域，得到样本图像。

S405，对样本图像进行图像预处理。

其中图像预处理可以为，对样本图像进行归一化处理以及数据增强处理。此外，若人脸活体检测模型采用的是ViT-Base模型，这里的图像预处理还包括将样本图像切分为多个图像块。

S406，将预处理后的样本图像输入ViT-Base模型，获取人脸特征。

S407，获取样本图像对应的文本描述。

S408，基于样本图像对应的文本描述进行文本预处理，获取中间文本。

其中文本预处理可包括分词，获取提示词，以及随机掩码处理。

S409，将中间文本输入Transformer模型，获取文本特征。

S410，基于文本特征以及人脸特征确定相似度矩阵。

S411，基于各样本图像的人脸活体检测结果和标注结果之间的分类损失。

其中，标注结果可以为活体样本图像和攻击样本图像，其中攻击样本图像又分为电子屏幕显示的人脸图像、纸质照片的电子图像、二维面具的电子图像、三维头模的电子图像、证件照的电子图像攻击。其中，每种类别分别为一种攻击方式。

S412，基于多个样本对中人脸特征和文本特征确定对比损失。

基于对比损失和分类损失调整人脸活体检测模型和Transformer模型的可学习参数，直至训练收敛。

基于相同技术构思，本公开实施例中还提出了一种人脸活体检测模型的训练装置，如图5所示包括：

第一提取模块501，用于基于人脸活体检测模型从各样本图像中分别提取出用于构建样本对的人脸特征，并基于人脸活体检测模型分别确定各样本图像的人脸活体检测结果；样本集中包括含有人脸活体的第一类样本图像和不含有人脸活体的第二类样本图像；以及，

第二提取模块502，用于从各样本图像的文本描述中分别提取出用于构建样本对的文本特征；其中，每个样本对中包括任一样本图像的人脸特征和任一样本图像的文本特征；

损失确定模块503，用于基于多个样本对中人脸特征和文本特征之间的对比损失，以及各样本图像的人脸活体检测结果和标注结果之间的分类损失，确定总损失值；对比损失用于缩小同一样本图像的人脸特征和文本特征之间的距离，并增大第一类样本图像和第二类样本图像的人脸特征之间的距离；

第一调整模块504，用于基于总损失值调整人脸活体检测模型的可学习参数，在人脸活体检测模型满足收敛条件的情况下，得到已训练人脸活体检测模型。

在一些实施例中，在图5的基础上，如图6所示，损失确定模块，包括：

相似度确定单元601，用于确定多个样本对中人脸特征和文本特征之间的相似度；

损失确定单元602，用于基于多个样本对中人脸特征和文本特征之间的相似度，确定对比损失。

在一些实施例中，相似度确定单元，用于：

基于各样本图像的文本特征，构建文本特征矩阵；以及，基于各样本图像的人脸特征，构建人脸特征矩阵；

将文本特征矩阵和人脸特征矩阵进行矩阵乘法运算，得到相似度矩阵；

从相似度矩阵中筛选出多个样本对的人脸特征和文本特征之间的相似度。

在一些实施例中，多个样本对中包括多个正样本对和多个负样本对，相似度确定单元，用于：

从相似度矩阵中筛选出正样本对的相似度以及负样本对的相似度，得到多个样本对的人脸特征和文本特征之间的相似度；

其中，正样本对为采用同一样本图像的人脸特征和文本特征构建的样本对；

负样本对为采用不同类别的样本图像的人脸特征和文本特征构建的样本对。

在一些实施例中，相似度确定单元，用于：

从相似度矩阵中，筛选出满足以下预设要求集合中的任一预设要求的相似度，得到多个样本对的人脸特征和文本特征之间的相似度；

其中，预设要求集合包括：相似度大于第一阈值，或相似度小于第二阈值。

在一些实施例中，文本描述包括：样本图像的图像内容和提示词，提示词用于指示样本图像是否包含人脸活体。

在一些实施例中，第二类样本图像包括以下至少一种类型的图像：电子屏幕显示的人脸图像、纸质照片的电子图像、二维面具的电子图像、三维头模的电子图像、证件照的电子图像。

在一些实施例中，针对各样本图像，第二提取模块，用于：

对样本图像的文本描述进行分词处理，获取文本描述中的多个字段；

从多个字段中识别出提示词；提示词用于指示样本图像是否包含人脸活体；

对多个字段中，除提示词之外的字段进行随机掩码处理，得到中间文本；

对中间文本进行特征提取，得到样本图像的文本特征。

在一些实施例中，第二提取模块，用于：

对文本描述中指定位置进行随机掩码处理，得到中间文本；指定位置为不包含提示词的位置，提示词用于指示样本图像是否包含人脸活体；

对中间文本进行特征提取，得到样本图像的文本特征。

在一些实施例中，在图5的基础上，如图6所示，还包括预处理模块603，用于针对各样本图像，基于以下方法获取样本图像：

获取样本图像的原始图像；

检测原始图像中目标人脸的位置信息，获取目标人脸在原始图像中的第一人脸区域；

提取第一人脸区域内的人脸关键点；

基于人脸关键点在原始图像中的位置信息，确定目标人脸在原始图像中的第二人脸区域；

基于第二人脸区域从原始图像中裁剪出样本图像。

在一些实施例中，预处理模块，还用于：

将第二人脸区域进行放大处理，获取第三人脸区域；

从原始图像中裁剪出第三人脸区域内的图像，得到样本图像。

在一些实施例中，文本特征是基于文本特征提取网络得到的，在图5的基础上，如图6所示，装置还包括第二调整模块604，用于：

基于总损失，调整文本特征提取网络的可学习参数，在人脸活体检测模型满足收敛条件的情况下，结束对文本特征提取网络的训练。

基于相同技术构思，本公开实施例中还提出了一种人脸活体检测装置，应用于前述装置得到的已训练人脸活体检测模型，如图7所示包括：

获取模块701，用于获取待检测图像；

检测模块702，用于将待检测图像输入已训练人脸活体检测模型，得到待检测图像的人脸活体检测结果。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如人脸活体检测模型的训练方法/人脸活体检测方法。例如，在一些实施例中，人脸活体检测模型的训练方法/人脸活体检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的人脸活体检测模型的训练方法/人脸活体检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人脸活体检测模型的训练方法/人脸活体检测方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种人脸活体检测模型的训练方法，包括：

基于人脸活体检测模型从样本集的各样本图像中分别提取出用于构建样本对的人脸特征，并基于所述人脸活体检测模型分别确定各样本图像的人脸活体检测结果；所述样本集中包括含有人脸活体的第一类样本图像和不含有人脸活体的第二类样本图像；以及，

从所述各样本图像的文本描述中分别提取出用于构建样本对的文本特征；其中，每个样本对中包括任一样本图像的人脸特征和任一样本图像的文本特征；

基于多个样本对中人脸特征和文本特征之间的对比损失，以及各样本图像的人脸活体检测结果和标注结果之间的分类损失，确定总损失值；所述对比损失用于缩小同一样本图像的人脸特征和文本特征之间的距离，并增大所述第一类样本图像和所述第二类样本图像的人脸特征之间的距离；

基于所述总损失值调整所述人脸活体检测模型的可学习参数，在所述人脸活体检测模型满足收敛条件的情况下，得到已训练人脸活体检测模型。

2.根据权利要求1所述的方法，其中，确定所述多个样本对中人脸特征和文本特征之间的对比损失，包括：

确定所述多个样本对中人脸特征和文本特征之间的相似度；

基于多个样本对中人脸特征和文本特征之间的相似度，确定对比损失。

3.根据权利要求2所述的方法，其中，确定所述多个样本对中人脸特征和文本特征之间的相似度，包括：

将所述文本特征矩阵和所述人脸特征矩阵进行矩阵乘法运算，得到相似度矩阵；

从所述相似度矩阵中筛选出所述多个样本对的人脸特征和文本特征之间的相似度。

4.根据权利要求3所述的方法，其中，所述多个样本对中包括多个正样本对和多个负样本对，所述从所述相似度矩阵中筛选出所述多个样本对的人脸特征和文本特征之间的相似度，包括：

从所述相似度矩阵中筛选出正样本对的相似度以及负样本对的相似度，得到所述多个样本对的人脸特征和文本特征之间的相似度；

其中，所述正样本对为采用同一样本图像的人脸特征和文本特征构建的样本对；

所述负样本对为采用不同类别的样本图像的人脸特征和文本特征构建的样本对。

5.根据权利要求3所述的方法，其中，所述从所述相似度矩阵中筛选出所述多个样本对的人脸特征和文本特征之间的相似度，包括：

从所述相似度矩阵中，筛选出满足以下预设要求集合中的任一预设要求的相似度，得到所述多个样本对的人脸特征和文本特征之间的相似度；

其中，所述预设要求集合包括：相似度大于第一阈值，相似度小于第二阈值。

6.根据权利要求1-5中任一项所述的方法，其中，所述文本描述包括：样本图像的图像内容和提示词，所述提示词用于指示所述样本图像是否包含人脸活体。

7.根据权利要求1-6中任一项所述的方法，所述第二类样本图像包括以下至少一种类型的图像：电子屏幕显示的人脸图像、纸质照片的电子图像、二维面具的电子图像、三维头模的电子图像、证件照的电子图像。

8.根据权利要求1-7中任一项所述的方法，其中，针对各样本图像，从所述样本图像的文本描述中提取出用于构建样本对的文本特征，包括：

对所述样本图像的文本描述进行分词处理，获取所述文本描述中的多个字段；

从所述多个字段中识别出提示词；所述提示词用于指示所述样本图像是否包含人脸活体；

对所述多个字段中，除所述提示词之外的字段进行随机掩码处理，得到中间文本；

对所述中间文本进行特征提取，得到所述样本图像的文本特征。

9.根据权利要求1-7中任一项所述的方法，其中，针对各样本图像，从所述样本图像的文本描述中提取出用于构建样本对的文本特征，包括：

对所述文本描述中指定位置进行随机掩码处理，得到中间文本；所述指定位置为不包含提示词的位置，所述提示词用于指示所述样本图像是否包含人脸活体；

10.根据权利要求1-9中任一项所述的方法，针对各样本图像，还包括基于以下方法获取所述样本图像：

获取所述样本图像的原始图像；

检测所述原始图像中目标人脸的位置信息，获取所述目标人脸在所述原始图像中的第一人脸区域；

提取所述第一人脸区域内的人脸关键点；

基于所述人脸关键点在所述原始图像中的位置信息，确定所述目标人脸在所述原始图像中的第二人脸区域；

基于所述第二人脸区域从所述原始图像中裁剪出所述样本图像。

11.根据权利要求10所述的方法，其中，所述基于所述第二人脸区域从所述原始图像中裁剪出所述样本图像，包括：

将所述第二人脸区域进行放大处理，获取第三人脸区域；

从所述原始图像中裁剪出所述第三人脸区域内的图像，得到所述样本图像。

12.根据权利要求1-11中任一项所述的方法，所述文本特征是基于文本特征提取网络得到的，所述方法还包括：

基于所述总损失，调整所述文本特征提取网络的可学习参数，在所述人脸活体检测模型满足收敛条件的情况下，结束对所述文本特征提取网络的训练。

13.一种人脸活体检测方法，应用于所述权利要求1-12任一项所述的方法得到的已训练人脸活体检测模型，包括：

获取待检测图像；

将所述待检测图像输入所述已训练人脸活体检测模型，得到所述待检测图像的人脸活体检测结果。

14.一种人脸活体检测模型的训练装置，包括：

第一提取模块，用于基于人脸活体检测模型从样本集的各样本图像中分别提取出用于构建样本对的人脸特征，并基于所述人脸活体检测模型分别确定各样本图像的人脸活体检测结果；所述样本集中包括含有人脸活体的第一类样本图像和不含有人脸活体的第二类样本图像；以及，

第二提取模块，用于从所述各样本图像的文本描述中分别提取出用于构建样本对的文本特征；其中，每个样本对中包括任一样本图像的人脸特征和任一样本图像的文本特征；

损失确定模块，用于基于多个样本对中人脸特征和文本特征之间的对比损失，以及各样本图像的人脸活体检测结果和标注结果之间的分类损失，确定总损失值；所述对比损失用于缩小同一样本图像的人脸特征和文本特征之间的距离，并增大所述第一类样本图像和所述第二类样本图像的人脸特征之间的距离；

第一调整模块，用于基于所述总损失值调整所述人脸活体检测模型的可学习参数，在所述人脸活体检测模型满足收敛条件的情况下，得到已训练人脸活体检测模型。

15.根据权利要求14所述的装置，其中，所述损失确定模块，包括：

相似度确定单元，用于确定所述多个样本对中人脸特征和文本特征之间的相似度；

损失确定单元，用于基于多个样本对中人脸特征和文本特征之间的相似度，确定对比损失。

16.根据权利要求15所述的装置，其中，所述相似度确定单元，用于：

17.根据权利要求16所述的装置，其中，所述多个样本对中包括多个正样本对和多个负样本对，所述相似度确定单元，用于：

18.根据权利要求16所述的装置，其中，所述相似度确定单元，用于：

19.根据权利要求14-18中任一项所述的装置，其中，所述文本描述包括：样本图像的图像内容和提示词，所述提示词用于指示所述样本图像是否包含人脸活体。

20.根据权利要求14-19中任一项所述的装置，所述第二类样本图像包括以下至少一种类型的图像：电子屏幕显示的人脸图像、纸质照片的电子图像、二维面具的电子图像、三维头模的电子图像、证件照的电子图像。

21.根据权利要求14-20中任一项所述的装置，其中，针对各样本图像，所述第二提取模块，用于：

22.根据权利要求14-20中任一项所述的装置，其中，所述第二提取模块，用于：

23.根据权利要求14-22中任一项所述的装置，还包括，预处理模块，用于针对各样本图像，基于以下方法获取所述样本图像：

获取所述样本图像的原始图像；

提取所述第一人脸区域内的人脸关键点；

24.根据权利要求23所述的装置，其中，所述预处理模块，用于：

将所述第二人脸区域进行放大处理，获取第三人脸区域；

25.根据权利要求14-24中任一项所述的装置，所述文本特征是基于文本特征提取网络得到的，所述装置还包括第二调整模块，用于：

26.一种人脸活体检测装置，应用于所述权利要求14-25中任一项所述的装置得到的已训练人脸活体检测模型，包括：

获取模块，用于获取待检测图像；

检测模块，用于将所述待检测图像输入所述已训练人脸活体检测模型，得到所述待检测图像的人脸活体检测结果。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述的方法。