CN116469151A

CN116469151A - 一种基于面部表情的生成式ai人脸检测方法

Info

Publication number: CN116469151A
Application number: CN202310524491.9A
Authority: CN
Inventors: 刘振宇; 舒明雷; 刘瑞霞; 陈超; 单珂; 刘照阳
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-21
Anticipated expiration: 2043-05-11
Also published as: CN116469151B

Abstract

一种基于面部表情的生成式AI人脸检测方法，构建AIR‑Face人脸数据集用于生成式AI人脸训练。使用未经训练的信息特征空间进行真假分类。在这个空间中执行最近线性探测可以显着提高检测假图像的泛化能力，特别是来自扩散模型或自回归模型等较新方法。该方法通过分阶段训练的方式提高了生成式AI人脸的特征提取效果，并通过特征空间对生成式AI人脸进行检测。相较其他方法，本方法科学有效的提高了生成式AI人脸的识别精度，充分利用分段训练挖掘人脸的潜在语义信息，以此进行生成式AI人脸检测，提高了可靠性和准确率，解决了生成式AI人脸检测的需求。

Description

一种基于面部表情的生成式AI人脸检测方法

技术领域

本发明涉及人脸检测方法技术领域，具体涉及一种基于面部表情的生成式AI人脸检测方法。

背景技术

随着生成式人工智能服务的普及，基于大规模预训练模型的技术成为现代AI领域中的一个重要分支，其优异的知识表现、流畅的交互和媒介输出吸引了众多用户的青睐。但是这种由大数据和大模型驱动形成的人脸图像也给科研、生活和伦理等方面带来了巨大的冲击。在传统的生成式AI人脸检测方法中，通常采用基于特征提取的算法(如Haar级联分类器)，需要手动设计处理流程，并对大量图像数据进行标注和训练。这种方法存在实时性和检测精度上的一定限制。同时，人脸姿态、角度、遮挡和光照等因素的干扰也会影响传统方法的准确率。

发明内容

本发明为了克服以上技术的不足，提供了一种提高可靠性和准确率的基于面部表情的生成式AI人脸检测方法。

本发明克服其技术问题所采用的技术方案是：

一种基于面部表情的生成式AI人脸检测方法，包括如下步骤：

a)对RAF-DB数据集中的人脸数据进行预处理，得到预处理后的人脸表情图像P_FER；

b)建立表情分类模型，表情分类模型由FERtrans模型、表情分类器构成，将人脸表情图像P_FER输入到FERtrans模型中，输出得到编码特征V_trans；

c)将编码特征V_trans输入到表情分类器中，输出得到表情分类结果O_FER；

d)通过KL散度利用Adam优化器迭代表情分类模型，得到训练后的表情分类模型；e)构建包含fake标签和real标签的AIR-Face人脸数据集；

f)将AIR-Face人脸数据集中的人脸图像输入到训练后的表情分类模型的FERtrans模型中，输出得到训练后的编码特征V′_trans，将各个人脸图像的训练后的编码特征V′_trans按照人脸图像对应的fake标签或real标签存储到特征库Data-features中；

g)将待检测的人脸图像输入到训练后的表情分类模型的FERtrans模型中，输出得到待检测位置编码特征将待检测位置编码特征/>输入到线性层中，输出得到向量E_test，利用余弦函数计算向量E_test与特征库Data-features中各个编码特征V′_trans的距离，将距离最小的编码特征V′_trans对应的标签作为待检测的人脸图像的分类结果R。

进一步的，步骤a)中使用DPM算法对RAF-DB数据集中的人脸数据进行人脸检测，提取得到人脸图像，使用PFLD算法对人脸图像进行对齐并剪裁处理，得到预处理后的人脸表情图像P_FER。

进一步的，步骤b)包括如下步骤：

b-1)FERtrans模型由图像分块层、线性嵌入层、位置编码层、FER-former编码器构成；

b-2)将人脸表情图像P_FER输入到FERtrans模型的图像分块层中，划分为m个大小均为16×16的图像块，得到图像块序列为第i个图像块，i∈{1,...,m}；

b-3)FERtrans模型的线性嵌入层由线性层、偏置向量、权重矩阵构成，将图像块序列输入到线性层中，输出维度变换后的图像块序列/>将图像块序列/>乘以偏置向量后再与权重矩阵相加得到降维后的嵌入向量序列/>

b-4)将降维后的嵌入向量序列输入到FERtrans模型的位置编码层中，将与降维后的嵌入向量序列/>相同形状的位置编码通过逐元素加法与降维后的嵌入向量序列相加，得到位置嵌入向量序列/>

b-5)FERtrans模型的FER-former编码器由卷积模块、补丁嵌入模块、转换模块构成；

b-6)FER-former编码器的卷积模块依次由第一卷积层、第一批标准化层、第一ReLU激活函数层、第二卷积层、第二批标准化层、第二ReLU激活函数层构成，将位置嵌入向量序列输入到卷积模块中，输出得到向量序列/>

b-7)FER-former编码器的补丁嵌入模块依次由第一卷积层、第一批标准化层、第一ReLU激活函数层、第二卷积层、第二批标准化层、第二ReLU激活函数层构成，在向量序列的开头添加一个可学习的分类嵌入向量后输入到补丁嵌入模块中，输出得到具有补丁嵌入的向量序列/>

b-8)FER-former编码器的转换模块依次由多头注意力模块、前馈模块、残差连接模块构成，转换模块的多头注意力模块依次由线性层、点积注意力机制、批标准化层构成，将具有补丁嵌入的向量序列输入到多头注意力模块中，输出得到向量序列/>转换模块的前馈模块依次由第一线性层、ReLU激活函数、第二线性层构成，将向量序列/>输入到前馈模块中，输出得到向量序列/>转换模块的残差连接模块将向量序列/>与具有补丁嵌入的向量序列/>逐元素相加，得到残差连接后的编码特征V_trans。

优选的，步骤b-2)中m取值为196；步骤b-3)中偏置向量的大小为1×768，权重矩阵的大小为(196×196×3)×768；步骤b-4)中位置编码的大小为196×768×3；步骤b-6)中FER-former编码器的卷积模块的第一卷积层的卷积核大小为3×3、步长为2，FER-former编码器的第二卷积层的卷积核大小为9×9、步长为1；步骤b-7)中FER-former编码器的补丁嵌入模块的第一卷积层的卷积核大小为3×3、步长为2，FER-former编码器的第二卷积层的卷积核大小为1×1、步长为1，可学习的分类嵌入向量的大小为1×196。

进一步的，步骤c)包括如下步骤：

c-1)表情分类器依次由线性层、Softmax函数、max函数构成，将编码特征V_trans输入到表情分类器中得到最大值的下标E_i，i∈{1,2,...,K}，K为样本类别数；

c-2)根据最大值的下标E_i对应的人脸表情作为表情分类结果O_FER。

进一步的，步骤c-1)中最大值的下标E₁表示人脸表情为惊讶，最大值的下标E₂表示人脸表情为害怕，最大值的下标E₃表示人脸表情为厌恶，最大值的下标E₄表示人脸表情为高兴，最大值的下标E₅表示人脸表情为伤心，最大值的下标E₆表示人脸表情为生气，最大值的下标E₇表示人脸表情为中性。

进一步的，步骤e)包括如下步骤：

e-1)使用ThreadPool模块进行多线程下载，从Generated Photos平台获取P张生成式AI人脸图像；

e-2)将收集到的P张生成式AI人脸图像分配到标签为fake的类别；

e-3)从DeeperForensics-1.0数据集中获取Q张真实人脸图像；

e-4)将Q张真实人脸图像分配到标签为real的类别；

e-5)将标签为fake类别的图像与标签为real类别的图像整合到一个统一的数据集中，得到AIR-Face人脸数据集。

优选的，步骤e-1)中P取值为40000，步骤e-3)中Q取值为40000。

本发明的有益效果是：使用Transformer架构有效地表示多尺度特征，以实现表情预训练任务。构建AIR-Face人脸数据集用于生成式AI人脸训练。使用未经训练的信息特征空间进行真假分类。在这个空间中执行最近线性探测可以显着提高检测假图像的泛化能力，特别是来自扩散模型或自回归模型等较新方法。该方法通过分阶段训练的方式提高了生成式AI人脸的特征提取效果，并通过特征空间对生成式AI人脸进行检测。相较其他方法，本方法科学有效的提高了生成式AI人脸的识别精度，充分利用分段训练挖掘人脸的潜在语义信息，以此进行生成式AI人脸检测，提高了可靠性和准确率，解决了生成式AI人脸检测的需求。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

a)对RAF-DB数据集中的人脸数据进行预处理，得到预处理后的人脸表情图像P_FER。

b)建立表情分类模型，表情分类模型由FERtrans模型、表情分类器构成，将人脸表情图像P_FER输入到FERtrans模型中，输出得到编码特征V_trans。

c)将编码特征V_trans输入到表情分类器中，输出得到表情分类结果O_FER。

d)通过KL散度利用Adam优化器迭代表情分类模型，得到训练后的表情分类模型；

e)构建包含fake标签和real标签的AIR-Face人脸数据集。

f)将AIR-Face人脸数据集中的人脸图像输入到训练后的表情分类模型的FERtrans模型中，输出得到训练后的编码特征V_tr′_ans，将各个人脸图像的训练后的编码特征V_tr′_ans按照人脸图像对应的fake标签或real标签存储到特征库Data-features中。这样可以确保特征库中的特征向量与原始图像的类别保持一致。

g)将待检测的人脸图像输入到训练后的表情分类模型的FERtrans模型中，输出得到待检测位置编码特征将待检测位置编码特征/>输入到线性层中，输出得到向量E_test，利用余弦函数计算向量E_test与特征库Data-features中各个编码特征V_tr′_ans的距离，将距离最小的编码特征V_tr′_ans对应的标签作为待检测的人脸图像的分类结果R。

实施例1：

步骤a)中使用DPM算法对RAF-DB数据集中的人脸数据进行人脸检测，提取得到人脸图像，使用PFLD算法对人脸图像进行对齐并剪裁处理，得到预处理后的人脸表情图像P_FER。

实施例2：

步骤b)包括如下步骤：

b-1)FERtrans模型由图像分块层、线性嵌入层、位置编码层、FER-former编码器构成。

b-2)将人脸表情图像P_FER输入到FERtrans模型的图像分块层中，划分为m个大小均为16×16的图像块，得到图像块序列为第i个图像块，i∈{1,...,m}。

b-5)FERtrans模型的FER-former编码器由卷积模块、补丁嵌入模块、转换模块构成。

b-6)FER-former编码器的卷积模块依次由第一卷积层、第一批标准化层(BatchNormalization)、第一ReLU激活函数层、第二卷积层、第二批标准化层、第二ReLU激活函数层构成，将位置嵌入向量序列输入到卷积模块中，输出得到向量序列/>

b-7)FER-former编码器的补丁嵌入模块依次由第一卷积层、第一批标准化层、第一ReLU激活函数层、第二卷积层、第二批标准化层、第二ReLU激活函数层构成，在向量序列的开头添加一个可学习的分类嵌入向量后输入到补丁嵌入模块中，输出得到具有补丁嵌入的向量序列/>b-8)FER-former编码器的转换模块依次由多头注意力模块、前馈模块、残差连接模块构成，多头注意力模块用于捕捉输入序列中的长距离依赖关系，转换模块的多头注意力模块依次由线性层、点积注意力机制、批标准化层构成，将具有补丁嵌入的向量序列/>输入到多头注意力模块中，输出得到向量序列/>转换模块的前馈模块依次由第一线性层、ReLU激活函数、第二线性层构成，将向量序列/>输入到前馈模块中，输出得到向量序列/>转换模块的残差连接模块将向量序列/>与具有补丁嵌入的向量序列/>逐元素相加，得到残差连接后的编码特征V_trans。

在该实施例中，优选的，步骤b-2)中m取值为196；步骤b-3)中偏置向量的大小为1×768，权重矩阵的大小为(196×196×3)×768，通过线性层将图像块序列的维度变换为196×196×3；步骤b-4)中位置编码的大小为196×768×3；步骤b-6)中FER-former编码器的卷积模块的第一卷积层的卷积核大小为3×3、步长为2，FER-former编码器的第二卷积层的卷积核大小为9×9、步长为1；步骤b-7)中FER-former编码器的补丁嵌入模块的第一卷积层的卷积核大小为3×3、步长为2，FER-former编码器的第二卷积层的卷积核大小为1×1、步长为1，可学习的分类嵌入向量的大小为1×196。

实施例3：

步骤c)包括如下步骤：

c-1)表情分类器依次由线性层、Softmax函数、max函数构成，将编码特征V_trans输入到表情分类器中得到最大值的下标E_i，i∈{1,2,...,K}，K为样本类别数。

进一步的，在该实施例中，最大值的下标E₁表示人脸表情为惊讶，最大值的下标E₂表示人脸表情为害怕，最大值的下标E₃表示人脸表情为厌恶，最大值的下标E₄表示人脸表情为高兴，最大值的下标E₅表示人脸表情为伤心，最大值的下标E₆表示人脸表情为生气，最大值的下标E₇表示人脸表情为中性。

实施例4：

步骤e)包括如下步骤：

e-1)使用ThreadPool模块进行多线程下载，从Generated Photos平台获取P张生成式AI人脸图像。Generated Photos平台利用人工智能技术生成高质量的虚构人脸图像。

e-2)将收集到的P张生成式AI人脸图像分配到标签为fake的类别。这一类别的目标是表示由AI生成的虚构人脸图像。

e-3)从DeeperForensics-1.0数据集中获取Q张真实人脸图像。DeeperForensics-1.0数据集是一个大型、高质量的真实人脸图像数据集，用于人脸识别和欺诈检测等应用。

e-4)将Q张真实人脸图像分配到标签为real的类别。这一类别的目标是表示真实世界中的人脸图像。

在该实施例中，优选的，步骤e-1)中P取值为40000，步骤e-3)中Q取值为40000。最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于面部表情的生成式AI人脸检测方法，其特征在于，包括如下步骤：

e)构建包含fake标签和real标签的AIR-Face人脸数据集；

2.根据权利要求1所述的基于面部表情的生成式AI人脸检测方法，其特征在于：步骤a)中使用DPM算法对RAF-DB数据集中的人脸数据进行人脸检测，提取得到人脸图像，使用PFLD算法对人脸图像进行对齐并剪裁处理，得到预处理后的人脸表情图像P_FER。

3.根据权利要求1所述的基于面部表情的生成式AI人脸检测方法，其特征在于，步骤b)包括如下步骤：

b-2)将人脸表情图像P_FER输入到FERtrans模型的图像分块层中，划分为m个大小均为16×16的图像块，得到图像块序列为第i个图像块，i∈{1,...,m}；b-3)FERtrans模型的线性嵌入层由线性层、偏置向量、权重矩阵构成，将图像块序列/>输入到线性层中，输出维度变换后的图像块序列/>将图像块序列/>乘以偏置向量后再与权重矩阵相加得到降维后的嵌入向量序列/>b-4)将降维后的嵌入向量序列/>输入到FERtrans模型的位置编码层中，将与降维后的嵌入向量序列/>相同形状的位置编码通过逐元素加法与降维后的嵌入向量序列/>相加，得到位置嵌入向量序列/>

4.根据权利要求1所述的基于面部表情的生成式AI人脸检测方法，其特征在于：步骤b-2)中m取值为196；步骤b-3)中偏置向量的大小为1×768，权重矩阵的大小为(196×196×3)×768；步骤b-4)中位置编码的大小为196×768×3；步骤b-6)中FER-former编码器的卷积模块的第一卷积层的卷积核大小为3×3、步长为2，FER-former编码器的第二卷积层的卷积核大小为9×9、步长为1；步骤b-7)中FER-former编码器的补丁嵌入模块的第一卷积层的卷积核大小为3×3、步长为2，FER-former编码器的第二卷积层的卷积核大小为1×1、步长为1，可学习的分类嵌入向量的大小为1×196。

5.根据权利要求1所述的基于面部表情的生成式AI人脸检测方法，其特征在于，步骤c)包括如下步骤：

c-1)表情分类器依次由线性层、Softmax函数、max函数构成，将编码特征V_trans输入到表情分类器中得到最大值的下标E_i，i∈{1,2,...,K}，K为样本类别数；c-2)根据最大值的下标E_i对应的人脸表情作为表情分类结果O_FER。

6.根据权利要求5所述的基于面部表情的生成式AI人脸检测方法，其特征在于：步骤c-1)中最大值的下标E₁表示人脸表情为惊讶，最大值的下标E₂表示人脸表情为害怕，最大值的下标E₃表示人脸表情为厌恶，最大值的下标E₄表示人脸表情为高兴，最大值的下标E₅表示人脸表情为伤心，最大值的下标E₆表示人脸表情为生气，最大值的下标E₇表示人脸表情为中性。

7.根据权利要求1所述的基于面部表情的生成式AI人脸检测方法，其特征在于，步骤e)包括如下步骤：

e-3)从DeeperForensics-1.0数据集中获取Q张真实人脸图像；

e-4)将Q张真实人脸图像分配到标签为real的类别；

8.根据权利要求7所述的基于面部表情的生成式AI人脸检测方法，其特征在于：

步骤e-1)中P取值为40000，步骤e-3)中Q取值为40000。