CN112580521B

CN112580521B - 一种基于maml元学习算法的多特征真假视频检测方法

Info

Publication number: CN112580521B
Application number: CN202011528465.6A
Authority: CN
Inventors: 刘毅; 王鹏程; 陈晋音
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-02-20
Anticipated expiration: 2040-12-22
Also published as: CN112580521A

Abstract

本发明公开了一种基于MAML元学习算法的多特征真假视频检测方法，包括：(1)采集预训练数据集以及局部训练数据集；(2)对预训练数据集和局部训练数据集进行处理；(3)对数据类别进行one‑hot编码，获取对应的类别标签序列；(4)构建引入注意力机制的模型M，利用预训练数据集对模型M进行训练，采用MAML元学习算法，得到预训练好的模型M_t；(5)将局部训练数据集分别作为模型M_t的输入，得到训练好的模型M₁、模型M₂和模型M₃；(6)从预训练数据集的视频数据中获取光流图，输入到模型M_t中，得到训练好的模型M₄；(7)将训练好的模型M₁、模型M₂、模型M₃和模型M₄进行测试和应用。本发明可以对脸部的局部特征进行训练，不需要大量的训练数据集。

Description

一种基于MAML元学习算法的多特征真假视频检测方法

技术领域

本发明属于机器学习技术领域，尤其是涉及一种基于MAML元学习算法的多特征真假视频检测方法。

背景技术

随着Deepfake的技术产生，网络上出现了大量的换脸图片和视频，其中就存在一些对社会影响较大的假的图片或视频。比如对一些公众人物进行换脸，使他们散播虚假言论或者是恶意诽谤他人。因此对这些假的图片或视频的检测就显得尤为重要。

公开号为CN111368764A的中国专利文献公开了一种基于计算机视觉与深度学习算法的虚假视频检测方法，公开号为CN111950497A的中国专利文献公开了一种基于多任务学习模型的AI换脸视频检测方法。

上述现有的方法在模型训练过程中，要使用大量的训练数据集。基于现有的生成假视频的方法会产生特有的人为视觉特征(visual artifacts)，比如通过检测眼睛，牙齿，脸部轮廓等可以简单地检测出这些特性，而这些特征并不是都存在所有的deepfake视频中，因此这是一个小样本学习任务。

以往的深度学习模型在大多数情况都是从头开始训练，要使用大量的训练数据集。而对于小样本任务，模型的效果往往都不太理想。

发明内容

本发明提供了一种基于MAML元学习算法的多特征真假视频检测方法，在模型的训练过程中可以对脸部的局部特征进行训练，不需要大量的训练数据集，训练出的模型具有可解释性。

一种基于MAML元学习算法的多特征真假视频检测方法，包括以下步骤：

(1)采集训练数据集，包括用于脸部训练的预训练数据集，以及用于局部关键点训练用的局部训练数据集；

(2)对预训练数据集和局部训练数据集进行视频帧提取，提取图片中的人脸并对齐；

对局部训练数据集中的人脸图片进行处理，分别提取眼、鼻和嘴部的图片并保存，将保存好的眼、鼻和嘴部图片分别划分为训练集和测试集；

(3)对预训练数据集、训练集和测试集中的数据类别进行one-hot编码，获取对应的类别标签序列；

(4)构建引入注意力机制的模型M，利用预训练数据集作为模型M的输入，对脸部的整体特征进行预训练，采用MAML元学习算法，得到预训练好的模型M_t的初始化参数；

(5)将眼、鼻和嘴部的训练集分别作为模型M_t的输入，对脸部的局部特征进行训练，得到训练好的模型M₁、模型M₂和模型M₃；

(6)用霍恩·山克算法从预训练数据集的视频数据中获取光流，然后用孟塞尔颜色***进行可视化后得到光流图，将得到的光流图输入到预训练好的模型M_t中，得到训练好的模型M₄；

(7)将训练好的模型M₁、模型M₂、模型M₃和模型M₄进行测试和应用。

步骤(1)中，用于脸部训练的预训练数据集采用FaceForensics++数据集，FaceForensics++数据集包含由Face2Face，FaceSwap，DeepFakes和NeuralTextures四种虚假视频生成算法生成的四类真假视频；用于局部关键点训练用的局部训练数据集采用WildDeepfake数据集。

步骤(4)中，所述的模型M结构如下：二维卷积中采用的卷积核大小为3×3，步长为1，在卷积层和最大池化层中加入了批量归一化，经过归一化后再输入到激活函数中，经过二维可分离卷积提取完特征之后，将提取到的特征输入到LSTM层中，经过LSTM后再输入到全连接层，然后采用softmax分类器进行分类。

对模型M中的LSTM引入注意力机制，用于对输入的数据提取特征信息，寻找特征信息之间的时序内在联系。引入Attention机制不但能够显著的提升模型的性能，还可以观察到输入的序列中的信息是如何影响到最后的输出序列的，有助于更好的理解模型内部的运行机制，提高模型的可解释性。

模型M的训练采用的是元学习中的MAML(Model Agnostic Meta Learning)算法，这是一种经典的元学习算法，他不会改变深度神经网络的结构，只改变网络的初始化参数。

具体的，步骤(4)中，利用预训练数据集作为模型M的输入，对脸部的整体特征进行预训练的具体过程如下：

(4-1)将预训练数据集根据不同的虚假视频生成算法分成脸部训练集A、脸部训练集B、脸部训练集C和脸部训练集D；

(4-2)采用随机初始化将模型的参数初始化为φ⁰，然后开始对模型M进行训练，使用脸部训练集A，定为任务A，训练批次大小为40，在第一个训练阶段采用预热学习率策略，选择Adam作为优化器，初始学习率为1e-3，每1000个训练步衰减0.95倍；基于模型的参数初始化φ⁰计算模型M在任务A上的损失函数，然后采用梯度下降法优化φ⁰，得到任务A独有的模型参数φ^A，再基于模型参数φ^A计算任务A新的损失函数，接着求出损失函数在φ^A上的梯度Δ_A，并用这个梯度Δ_A去优化φ⁰，得到新的模型参数φ¹，φ¹的计算公式如下所示：

φ¹＝α^A·Δ_A+φ⁰

其中，α^A为这一过程的学习率，这里设为1e-3；

(4-3)对于任务B，采用和任务A一样的训练方法，以模型参数φ¹作为初始参数计算模型M在任务B上的损失函数，最后得到一个新的模型参数φ²；

(4-4)对于任务C和任务D，依次采用上述同样的训练方法，最终得到模型的初始参数φ。

步骤(4-2)中，损失函数采用交叉熵的形式，公式如下所示：

L＝-[y·log(p)+(1-y)·log(1-p)]

其中，y表示样本的标签，真视频为1，假视频为0；p表示样本预测为真视频的概率。

步骤(5)中，模型M₁、模型M₂和模型M₃在训练过程中的损失函数为：

其中，φ表示模型的基础参数，θⁿ表示基于模型的基础参数学到的第n个分任务的参数，lⁿ表示第n个分任务的损失函数。

步骤(7)的具体过程为：

(7-1)将步骤(2)中划分好的测试集分别输入到模型M₁、M₂、M₃中，测试他们对不同的特征的分类准确率；

(7-2)再将步骤(1)中的预训练数据集作为模型M₄的测试数据集，测试其对于deepfake图片的分类准确率；

(7-3)对于待检测的视频，提取图片帧后分别输入模型M₁、模型M₂、模型M₃和模型M₄，进行局部和整体的真假分类检测。

与现有技术相比，本发明具有以下有益效果：

1、采用MAML元学习算法预训练模型，使得训练好的模型对于小样本学习任务有着非常好的效果，并且添加了注意力机制，提高模型的可解释性。

2、本发明采取了脸部静态多特征结合光流图提取时序特征训练，静态特性和动态特性相结合，提高了模型对Deepfake视频的检测能力。

附图说明

图1为本发明实施例中模型M的网络结构图；

图2为本发明实施例中注意力机制的结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

步骤1，数据预处理

1.1)采用WildDeepfake数据集作为训练数据：

本发明采用FaceForensics++数据集作为MAML元学习算法预训练数据集，FaceForensics++包含了由Face2Face，FaceSwap，DeepFakes和NeuralTextures四种目前最常见的虚假视频生成算法生成的1000对真假视频。

本发明采用WildDeepfake数据集作为局部训练数据集，WildDeepfake数据集包含约100位志愿者的707段deepfake视频。WildDeepfake是一个小型的数据集，其中的deepfake视频效果较好，接近于真实的deepfake。

1.2)转换样本格式，划分数据集：

原始数据集为视频MP4格式，先用opencv每10帧提取一张图片，图片格式为png格式，再用dlib工具提取图片中的人脸，并进行人脸对齐。对于FaceForensics++训练集，按照不同的Deepfake生成方法分成4类，Face2Face为A类，FaceSwap为B类，DeepFakes为C类,NeuralTextures为D类。对于WildDeepfake训练集对其分别进行人眼关键点检测，鼻部关键点检测和嘴部关键点检测。分别提取人眼、鼻和嘴部的图片并保存，将保存好的图片以5：1的比例划分为训练集和测试集。

1.3)提取类别标签：

对数据的类别进行one-hot编码，获取对应的类别标签序列。

步骤2，训练模型

2.1)设计模型M，向模型M中引入Attention机制。

模型M的结构如图1所示，二维卷积中采用的卷积核大小为3×3，步长为1，为防止训练过拟合并提高训练的收敛速度，在卷积层和最大池化层中加入了批量归一化(BatchNormalization)，经过归一化后再输入到激活函数中，其中采用的激活函数为ReLU，经过二维可分离卷积提取完特征之后，将提取到的特征输入到LSTM层中，经过LSTM后再输入到全连接层，然后采用softmax分类器进行分类。

Attention机制即注意力机制，如图2所示，本发明对LSTM引入了注意力机制，它能对输入的数据提取特征信息，寻找特征信息之间的时序内在联系，引入Attention机制不但能够显著的提升模型的性能，还可以观察到输入的序列中的信息是如何影响到最后的输出序列的，有助于更好的理解模型内部的运行机制，提高模型的可解释性。

模型M的损失函数如下式所示：

2.2)将步骤1划分好的脸部训练数据集A、B、C、D作为模型M的输入，首先对脸部的整体特征进行训练，采用MAML元学习算法，得到模型的初始化参数。

采用随机初始化将模型的参数初始化为φ⁰，然后开始对模型M进行训练,使用脸部训练数据集A，定为任务A，训练批次大小为40，在第一个训练阶段采用预热学习率策略，选择Adam作为优化器，初始学习率为1e-3，每1000个训练步衰减0.95倍。损失函数采用交叉熵的形式，公式如下所示：

L＝-[y·log(p)+(1-y)·log(1-p)]

其中，y表示样本的lable，真视频为1，假视频为0。p表示样本预测为真视频的概率。

基于模型的参数初始化φ⁰计算模型M在任务A上的损失函数，然后采用梯度下降法优化φ⁰，得到任务A独有的模型参数φ^A，再基于模型参数φ^A计算任务A新的损失函数，接着求出损失函数在φ^A上的梯度Δ_A，并用这个梯度Δ_A去优化φ⁰，得到新的模型参数φ¹，φ¹的计算公式如下所示：

φ¹＝α^A·Δ_A+φ⁰

其中，α^A为这一过程的学习率，这里设为1e-3。

接下来就和任务A一样，以模型参数φ¹作为初始参数计算模型M在任务B上的损失函数，最后得到一个新的模型参数φ²，对于任务C和任务D也采用同样的训练方法，最终得到模型的初始参数φ，基于这个初始参数φ，对后面的小样本任务进行学习，这样就可以使小样本数据训练的模型也具有非常好的效果。

2.3)将步骤1划分好的眼、鼻和嘴部训练数据集作为模型M_t的输入，对脸部的局部特征进行训练。

这一步采用的是之前预训练好的模型M_t，分别将眼、鼻和嘴部训练数据集输入到模型M₁、M₂、M₃中，因为眼、鼻和嘴部训练数据集的样本量很少，所以这是一个小样本学习，损失函数如步骤2.1)中所示。

2.4)以光流图为输入，结合时间注意力机制，对模型M₄进行训练。结合时序特征，提高模型对Deepfake视频的判别能力。

光流(optical flow)常用来做运动检测，它是运动的物体在成像平面上的像素运动的瞬时速度，利用相邻帧图像对应的像素在时域上的变化及其相关性来计算物体的运动信息。以FaceForensics++训练集中的真视频作为训练样本，运用霍恩·山克算法(HornSchunck method)获得光流，霍恩·山克算法用一种全局方法估计图像的稠密光流场，即对图像中的每个像素计算光流。然后用孟塞尔颜色***进行可视化后得到光流图。将得到的光流图输入到预训练好的模型M₄中，对模型M₄进行训练。

步骤3，测试模型

将步骤1中划分好的测试集分别输入到模型M₁、M₂、M₃中，测试他们对不同的特征的分类准确率。再将步骤1中的脸部训练数据集作为模型M₄的测试数据集，测试其对于deepfake图片的分类准确率。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于MAML元学习算法的多特征真假视频检测方法，其特征在于，包括以下步骤：

利用预训练数据集作为模型M的输入，对脸部的整体特征进行预训练的具体过程如下：

φ¹＝α^A·Δ_A+φ⁰

其中，α^A为这一过程的学习率，这里设为1e-3；

(4-4)对于任务C和任务D，依次采用上述同样的训练方法，最终得到模型的初始参数φ；

2.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法，其特征在于，步骤(1)中，用于脸部训练的预训练数据集采用FaceForensics++数据集，FaceForensics++数据集包含由Face2Face，FaceSwap，DeepFakes和NeuralTextures四种虚假视频生成算法生成的四类真假视频；用于局部关键点训练用的局部训练数据集采用WildDeepfake数据集。

3.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法，其特征在于，步骤(4)中，所述的模型M结构如下：二维卷积中采用的卷积核大小为3×3，步长为1，在卷积层和最大池化层中加入了批量归一化，经过归一化后再输入到激活函数中，经过二维可分离卷积提取完特征之后，将提取到的特征输入到LSTM层中，经过LSTM后再输入到全连接层，然后采用softmax分类器进行分类。

4.根据权利要求3所述的基于MAML元学习算法的多特征真假视频检测方法，其特征在于，对模型M中的LSTM引入注意力机制，用于对输入的数据提取特征信息，寻找特征信息之间的时序内在联系。

5.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法，其特征在于，步骤(4-2)中，损失函数采用交叉熵的形式，公式如下所示：

L＝-[y·log(p)+(1-y)·log(1-p)]

6.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法，其特征在于，步骤(5)中，模型M₁、模型M₂和模型M₃在训练过程中的损失函数为：

7.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法，其特征在于，步骤(7)的具体过程为：