CN112580521B - 一种基于maml元学习算法的多特征真假视频检测方法 - Google Patents
一种基于maml元学习算法的多特征真假视频检测方法 Download PDFInfo
- Publication number
- CN112580521B CN112580521B CN202011528465.6A CN202011528465A CN112580521B CN 112580521 B CN112580521 B CN 112580521B CN 202011528465 A CN202011528465 A CN 202011528465A CN 112580521 B CN112580521 B CN 112580521B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- data set
- training data
- phi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000007476 Maximum Likelihood Methods 0.000 title description 2
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 3
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 claims abstract 10
- 230000006870 function Effects 0.000 claims description 26
- 230000003287 optical effect Effects 0.000 claims description 14
- 210000001508 eye Anatomy 0.000 claims description 12
- 210000001331 nose Anatomy 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 210000000887 face Anatomy 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010438 heat treatment Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 210000000214 mouth Anatomy 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于MAML元学习算法的多特征真假视频检测方法,包括:(1)采集预训练数据集以及局部训练数据集;(2)对预训练数据集和局部训练数据集进行处理;(3)对数据类别进行one‑hot编码,获取对应的类别标签序列;(4)构建引入注意力机制的模型M,利用预训练数据集对模型M进行训练,采用MAML元学习算法,得到预训练好的模型Mt;(5)将局部训练数据集分别作为模型Mt的输入,得到训练好的模型M1、模型M2和模型M3;(6)从预训练数据集的视频数据中获取光流图,输入到模型Mt中,得到训练好的模型M4;(7)将训练好的模型M1、模型M2、模型M3和模型M4进行测试和应用。本发明可以对脸部的局部特征进行训练,不需要大量的训练数据集。
Description
技术领域
本发明属于机器学习技术领域,尤其是涉及一种基于MAML元学习算法的多特征真假视频检测方法。
背景技术
随着Deepfake的技术产生,网络上出现了大量的换脸图片和视频,其中就存在一些对社会影响较大的假的图片或视频。比如对一些公众人物进行换脸,使他们散播虚假言论或者是恶意诽谤他人。因此对这些假的图片或视频的检测就显得尤为重要。
公开号为CN111368764A的中国专利文献公开了一种基于计算机视觉与深度学习算法的虚假视频检测方法,公开号为CN111950497A的中国专利文献公开了一种基于多任务学习模型的AI换脸视频检测方法。
上述现有的方法在模型训练过程中,要使用大量的训练数据集。基于现有的生成假视频的方法会产生特有的人为视觉特征(visual artifacts),比如通过检测眼睛,牙齿,脸部轮廓等可以简单地检测出这些特性,而这些特征并不是都存在所有的deepfake视频中,因此这是一个小样本学习任务。
以往的深度学习模型在大多数情况都是从头开始训练,要使用大量的训练数据集。而对于小样本任务,模型的效果往往都不太理想。
发明内容
本发明提供了一种基于MAML元学习算法的多特征真假视频检测方法,在模型的训练过程中可以对脸部的局部特征进行训练,不需要大量的训练数据集,训练出的模型具有可解释性。
一种基于MAML元学习算法的多特征真假视频检测方法,包括以下步骤:
(1)采集训练数据集,包括用于脸部训练的预训练数据集,以及用于局部关键点训练用的局部训练数据集;
(2)对预训练数据集和局部训练数据集进行视频帧提取,提取图片中的人脸并对齐;
对局部训练数据集中的人脸图片进行处理,分别提取眼、鼻和嘴部的图片并保存,将保存好的眼、鼻和嘴部图片分别划分为训练集和测试集;
(3)对预训练数据集、训练集和测试集中的数据类别进行one-hot编码,获取对应的类别标签序列;
(4)构建引入注意力机制的模型M,利用预训练数据集作为模型M的输入,对脸部的整体特征进行预训练,采用MAML元学习算法,得到预训练好的模型Mt的初始化参数;
(5)将眼、鼻和嘴部的训练集分别作为模型Mt的输入,对脸部的局部特征进行训练,得到训练好的模型M1、模型M2和模型M3;
(6)用霍恩·山克算法从预训练数据集的视频数据中获取光流,然后用孟塞尔颜色***进行可视化后得到光流图,将得到的光流图输入到预训练好的模型Mt中,得到训练好的模型M4;
(7)将训练好的模型M1、模型M2、模型M3和模型M4进行测试和应用。
步骤(1)中,用于脸部训练的预训练数据集采用FaceForensics++数据集,FaceForensics++数据集包含由Face2Face,FaceSwap,DeepFakes和NeuralTextures四种虚假视频生成算法生成的四类真假视频;用于局部关键点训练用的局部训练数据集采用WildDeepfake数据集。
步骤(4)中,所述的模型M结构如下:二维卷积中采用的卷积核大小为3×3,步长为1,在卷积层和最大池化层中加入了批量归一化,经过归一化后再输入到激活函数中,经过二维可分离卷积提取完特征之后,将提取到的特征输入到LSTM层中,经过LSTM后再输入到全连接层,然后采用softmax分类器进行分类。
对模型M中的LSTM引入注意力机制,用于对输入的数据提取特征信息,寻找特征信息之间的时序内在联系。引入Attention机制不但能够显著的提升模型的性能,还可以观察到输入的序列中的信息是如何影响到最后的输出序列的,有助于更好的理解模型内部的运行机制,提高模型的可解释性。
模型M的训练采用的是元学习中的MAML(Model Agnostic Meta Learning)算法,这是一种经典的元学习算法,他不会改变深度神经网络的结构,只改变网络的初始化参数。
具体的,步骤(4)中,利用预训练数据集作为模型M的输入,对脸部的整体特征进行预训练的具体过程如下:
(4-1)将预训练数据集根据不同的虚假视频生成算法分成脸部训练集A、脸部训练集B、脸部训练集C和脸部训练集D;
(4-2)采用随机初始化将模型的参数初始化为φ0,然后开始对模型M进行训练,使用脸部训练集A,定为任务A,训练批次大小为40,在第一个训练阶段采用预热学习率策略,选择Adam作为优化器,初始学习率为1e-3,每1000个训练步衰减0.95倍;基于模型的参数初始化φ0计算模型M在任务A上的损失函数,然后采用梯度下降法优化φ0,得到任务A独有的模型参数φA,再基于模型参数φA计算任务A新的损失函数,接着求出损失函数在φA上的梯度ΔA,并用这个梯度ΔA去优化φ0,得到新的模型参数φ1,φ1的计算公式如下所示:
φ1=αA·ΔA+φ0
其中,αA为这一过程的学习率,这里设为1e-3;
(4-3)对于任务B,采用和任务A一样的训练方法,以模型参数φ1作为初始参数计算模型M在任务B上的损失函数,最后得到一个新的模型参数φ2;
(4-4)对于任务C和任务D,依次采用上述同样的训练方法,最终得到模型的初始参数φ。
步骤(4-2)中,损失函数采用交叉熵的形式,公式如下所示:
L=-[y·log(p)+(1-y)·log(1-p)]
其中,y表示样本的标签,真视频为1,假视频为0;p表示样本预测为真视频的概率。
步骤(5)中,模型M1、模型M2和模型M3在训练过程中的损失函数为:
其中,φ表示模型的基础参数,θn表示基于模型的基础参数学到的第n个分任务的参数,ln表示第n个分任务的损失函数。
步骤(7)的具体过程为:
(7-1)将步骤(2)中划分好的测试集分别输入到模型M1、M2、M3中,测试他们对不同的特征的分类准确率;
(7-2)再将步骤(1)中的预训练数据集作为模型M4的测试数据集,测试其对于deepfake图片的分类准确率;
(7-3)对于待检测的视频,提取图片帧后分别输入模型M1、模型M2、模型M3和模型M4,进行局部和整体的真假分类检测。
与现有技术相比,本发明具有以下有益效果:
1、采用MAML元学习算法预训练模型,使得训练好的模型对于小样本学习任务有着非常好的效果,并且添加了注意力机制,提高模型的可解释性。
2、本发明采取了脸部静态多特征结合光流图提取时序特征训练,静态特性和动态特性相结合,提高了模型对Deepfake视频的检测能力。
附图说明
图1为本发明实施例中模型M的网络结构图;
图2为本发明实施例中注意力机制的结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
一种基于MAML元学习算法的多特征真假视频检测方法,包括以下步骤:
步骤1,数据预处理
1.1)采用WildDeepfake数据集作为训练数据:
本发明采用FaceForensics++数据集作为MAML元学习算法预训练数据集,FaceForensics++包含了由Face2Face,FaceSwap,DeepFakes和NeuralTextures四种目前最常见的虚假视频生成算法生成的1000对真假视频。
本发明采用WildDeepfake数据集作为局部训练数据集,WildDeepfake数据集包含约100位志愿者的707段deepfake视频。WildDeepfake是一个小型的数据集,其中的deepfake视频效果较好,接近于真实的deepfake。
1.2)转换样本格式,划分数据集:
原始数据集为视频MP4格式,先用opencv每10帧提取一张图片,图片格式为png格式,再用dlib工具提取图片中的人脸,并进行人脸对齐。对于FaceForensics++训练集,按照不同的Deepfake生成方法分成4类,Face2Face为A类,FaceSwap为B类,DeepFakes为C类,NeuralTextures为D类。对于WildDeepfake训练集对其分别进行人眼关键点检测,鼻部关键点检测和嘴部关键点检测。分别提取人眼、鼻和嘴部的图片并保存,将保存好的图片以5:1的比例划分为训练集和测试集。
1.3)提取类别标签:
对数据的类别进行one-hot编码,获取对应的类别标签序列。
步骤2,训练模型
2.1)设计模型M,向模型M中引入Attention机制。
模型M的结构如图1所示,二维卷积中采用的卷积核大小为3×3,步长为1,为防止训练过拟合并提高训练的收敛速度,在卷积层和最大池化层中加入了批量归一化(BatchNormalization),经过归一化后再输入到激活函数中,其中采用的激活函数为ReLU,经过二维可分离卷积提取完特征之后,将提取到的特征输入到LSTM层中,经过LSTM后再输入到全连接层,然后采用softmax分类器进行分类。
Attention机制即注意力机制,如图2所示,本发明对LSTM引入了注意力机制,它能对输入的数据提取特征信息,寻找特征信息之间的时序内在联系,引入Attention机制不但能够显著的提升模型的性能,还可以观察到输入的序列中的信息是如何影响到最后的输出序列的,有助于更好的理解模型内部的运行机制,提高模型的可解释性。
模型M的训练采用的是元学习中的MAML(Model Agnostic Meta Learning)算法,这是一种经典的元学习算法,他不会改变深度神经网络的结构,只改变网络的初始化参数。
模型M的损失函数如下式所示:
其中,φ表示模型的基础参数,θn表示基于模型的基础参数学到的第n个分任务的参数,ln表示第n个分任务的损失函数。
2.2)将步骤1划分好的脸部训练数据集A、B、C、D作为模型M的输入,首先对脸部的整体特征进行训练,采用MAML元学习算法,得到模型的初始化参数。
采用随机初始化将模型的参数初始化为φ0,然后开始对模型M进行训练,使用脸部训练数据集A,定为任务A,训练批次大小为40,在第一个训练阶段采用预热学习率策略,选择Adam作为优化器,初始学习率为1e-3,每1000个训练步衰减0.95倍。损失函数采用交叉熵的形式,公式如下所示:
L=-[y·log(p)+(1-y)·log(1-p)]
其中,y表示样本的lable,真视频为1,假视频为0。p表示样本预测为真视频的概率。
基于模型的参数初始化φ0计算模型M在任务A上的损失函数,然后采用梯度下降法优化φ0,得到任务A独有的模型参数φA,再基于模型参数φA计算任务A新的损失函数,接着求出损失函数在φA上的梯度ΔA,并用这个梯度ΔA去优化φ0,得到新的模型参数φ1,φ1的计算公式如下所示:
φ1=αA·ΔA+φ0
其中,αA为这一过程的学习率,这里设为1e-3。
接下来就和任务A一样,以模型参数φ1作为初始参数计算模型M在任务B上的损失函数,最后得到一个新的模型参数φ2,对于任务C和任务D也采用同样的训练方法,最终得到模型的初始参数φ,基于这个初始参数φ,对后面的小样本任务进行学习,这样就可以使小样本数据训练的模型也具有非常好的效果。
2.3)将步骤1划分好的眼、鼻和嘴部训练数据集作为模型Mt的输入,对脸部的局部特征进行训练。
这一步采用的是之前预训练好的模型Mt,分别将眼、鼻和嘴部训练数据集输入到模型M1、M2、M3中,因为眼、鼻和嘴部训练数据集的样本量很少,所以这是一个小样本学习,损失函数如步骤2.1)中所示。
2.4)以光流图为输入,结合时间注意力机制,对模型M4进行训练。结合时序特征,提高模型对Deepfake视频的判别能力。
光流(optical flow)常用来做运动检测,它是运动的物体在成像平面上的像素运动的瞬时速度,利用相邻帧图像对应的像素在时域上的变化及其相关性来计算物体的运动信息。以FaceForensics++训练集中的真视频作为训练样本,运用霍恩·山克算法(HornSchunck method)获得光流,霍恩·山克算法用一种全局方法估计图像的稠密光流场,即对图像中的每个像素计算光流。然后用孟塞尔颜色***进行可视化后得到光流图。将得到的光流图输入到预训练好的模型M4中,对模型M4进行训练。
步骤3,测试模型
将步骤1中划分好的测试集分别输入到模型M1、M2、M3中,测试他们对不同的特征的分类准确率。再将步骤1中的脸部训练数据集作为模型M4的测试数据集,测试其对于deepfake图片的分类准确率。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于MAML元学习算法的多特征真假视频检测方法,其特征在于,包括以下步骤:
(1)采集训练数据集,包括用于脸部训练的预训练数据集,以及用于局部关键点训练用的局部训练数据集;
(2)对预训练数据集和局部训练数据集进行视频帧提取,提取图片中的人脸并对齐;
对局部训练数据集中的人脸图片进行处理,分别提取眼、鼻和嘴部的图片并保存,将保存好的眼、鼻和嘴部图片分别划分为训练集和测试集;
(3)对预训练数据集、训练集和测试集中的数据类别进行one-hot编码,获取对应的类别标签序列;
(4)构建引入注意力机制的模型M,利用预训练数据集作为模型M的输入,对脸部的整体特征进行预训练,采用MAML元学习算法,得到预训练好的模型Mt的初始化参数;
利用预训练数据集作为模型M的输入,对脸部的整体特征进行预训练的具体过程如下:
(4-1)将预训练数据集根据不同的虚假视频生成算法分成脸部训练集A、脸部训练集B、脸部训练集C和脸部训练集D;
(4-2)采用随机初始化将模型的参数初始化为φ0,然后开始对模型M进行训练,使用脸部训练集A,定为任务A,训练批次大小为40,在第一个训练阶段采用预热学习率策略,选择Adam作为优化器,初始学习率为1e-3,每1000个训练步衰减0.95倍;基于模型的参数初始化φ0计算模型M在任务A上的损失函数,然后采用梯度下降法优化φ0,得到任务A独有的模型参数φA,再基于模型参数φA计算任务A新的损失函数,接着求出损失函数在φA上的梯度ΔA,并用这个梯度ΔA去优化φ0,得到新的模型参数φ1,φ1的计算公式如下所示:
φ1=αA·ΔA+φ0
其中,αA为这一过程的学习率,这里设为1e-3;
(4-3)对于任务B,采用和任务A一样的训练方法,以模型参数φ1作为初始参数计算模型M在任务B上的损失函数,最后得到一个新的模型参数φ2;
(4-4)对于任务C和任务D,依次采用上述同样的训练方法,最终得到模型的初始参数φ;
(5)将眼、鼻和嘴部的训练集分别作为模型Mt的输入,对脸部的局部特征进行训练,得到训练好的模型M1、模型M2和模型M3;
(6)用霍恩·山克算法从预训练数据集的视频数据中获取光流,然后用孟塞尔颜色***进行可视化后得到光流图,将得到的光流图输入到预训练好的模型Mt中,得到训练好的模型M4;
(7)将训练好的模型M1、模型M2、模型M3和模型M4进行测试和应用。
2.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法,其特征在于,步骤(1)中,用于脸部训练的预训练数据集采用FaceForensics++数据集,FaceForensics++数据集包含由Face2Face,FaceSwap,DeepFakes和NeuralTextures四种虚假视频生成算法生成的四类真假视频;用于局部关键点训练用的局部训练数据集采用WildDeepfake数据集。
3.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法,其特征在于,步骤(4)中,所述的模型M结构如下:二维卷积中采用的卷积核大小为3×3,步长为1,在卷积层和最大池化层中加入了批量归一化,经过归一化后再输入到激活函数中,经过二维可分离卷积提取完特征之后,将提取到的特征输入到LSTM层中,经过LSTM后再输入到全连接层,然后采用softmax分类器进行分类。
4.根据权利要求3所述的基于MAML元学习算法的多特征真假视频检测方法,其特征在于,对模型M中的LSTM引入注意力机制,用于对输入的数据提取特征信息,寻找特征信息之间的时序内在联系。
5.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法,其特征在于,步骤(4-2)中,损失函数采用交叉熵的形式,公式如下所示:
L=-[y·log(p)+(1-y)·log(1-p)]
其中,y表示样本的标签,真视频为1,假视频为0;p表示样本预测为真视频的概率。
6.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法,其特征在于,步骤(5)中,模型M1、模型M2和模型M3在训练过程中的损失函数为:
其中,φ表示模型的基础参数,θn表示基于模型的基础参数学到的第n个分任务的参数,ln表示第n个分任务的损失函数。
7.根据权利要求1所述的基于MAML元学习算法的多特征真假视频检测方法,其特征在于,步骤(7)的具体过程为:
(7-1)将步骤(2)中划分好的测试集分别输入到模型M1、M2、M3中,测试他们对不同的特征的分类准确率;
(7-2)再将步骤(1)中的预训练数据集作为模型M4的测试数据集,测试其对于deepfake图片的分类准确率;
(7-3)对于待检测的视频,提取图片帧后分别输入模型M1、模型M2、模型M3和模型M4,进行局部和整体的真假分类检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011528465.6A CN112580521B (zh) | 2020-12-22 | 2020-12-22 | 一种基于maml元学习算法的多特征真假视频检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011528465.6A CN112580521B (zh) | 2020-12-22 | 2020-12-22 | 一种基于maml元学习算法的多特征真假视频检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580521A CN112580521A (zh) | 2021-03-30 |
CN112580521B true CN112580521B (zh) | 2024-02-20 |
Family
ID=75139012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011528465.6A Active CN112580521B (zh) | 2020-12-22 | 2020-12-22 | 一种基于maml元学习算法的多特征真假视频检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580521B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128619B (zh) * | 2021-05-10 | 2022-05-31 | 北京瑞莱智慧科技有限公司 | 伪造样本检测模型的训练方法、伪造样本识别方法、装置、介质和设备 |
CN113343771B (zh) * | 2021-05-12 | 2022-04-15 | 武汉大学 | 一种基于自适应元学习的人脸防伪方法 |
CN113724197B (zh) * | 2021-07-26 | 2023-09-15 | 南京邮电大学 | 基于元学习的螺纹旋合性判定方法 |
CN113553988A (zh) * | 2021-08-03 | 2021-10-26 | 同济大学 | 一种基于复数神经网络和注意力机制的模拟信号识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368764A (zh) * | 2020-03-09 | 2020-07-03 | 零秩科技(深圳)有限公司 | 一种基于计算机视觉与深度学习算法的虚假视频检测方法 |
CN111950497A (zh) * | 2020-08-20 | 2020-11-17 | 重庆邮电大学 | 一种基于多任务学习模型的ai换脸视频检测方法 |
-
2020
- 2020-12-22 CN CN202011528465.6A patent/CN112580521B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368764A (zh) * | 2020-03-09 | 2020-07-03 | 零秩科技(深圳)有限公司 | 一种基于计算机视觉与深度学习算法的虚假视频检测方法 |
CN111950497A (zh) * | 2020-08-20 | 2020-11-17 | 重庆邮电大学 | 一种基于多任务学习模型的ai换脸视频检测方法 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积神经网络与中心损失的人脸识别;张延安;王宏玉;徐方;;科学技术与工程(第35期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112580521A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580521B (zh) | 一种基于maml元学习算法的多特征真假视频检测方法 | |
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
Hu et al. | Revisiting shadow detection: A new benchmark dataset for complex world | |
CN113221639B (zh) | 一种基于多任务学习的代表性au区域提取的微表情识别方法 | |
Rahmon et al. | Motion U-Net: Multi-cue encoder-decoder network for motion segmentation | |
CN109359541A (zh) | 一种基于深度迁移学习的素描人脸识别方法 | |
CN112966684A (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
Wang et al. | A survey of deep face restoration: Denoise, super-resolution, deblur, artifact removal | |
CN105447532A (zh) | 身份认证方法和装置 | |
CN111428664B (zh) | 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112329793B (zh) | 基于结构自适应和规模自适应感受野的显著性检测方法 | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
Dhivyasri et al. | An efficient approach for interpretation of Indian sign language using machine learning | |
CN116311483A (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
Parde et al. | Deep convolutional neural network features and the original image | |
CN111626197B (zh) | 一种基于人体行为识别网络模型的识别方法 | |
CN115482595B (zh) | 一种基于语义分割的特定人物视觉伪造检测与鉴别方法 | |
WO2022267327A1 (zh) | 一种色斑预测方法、装置、设备及存储介质 | |
Zerrouki et al. | Exploiting deep learning-based LSTM classification for improving hand gesture recognition to enhance visitors’ museum experiences | |
CN112215868B (zh) | 基于生成对抗网络的去除手势图像背景的方法 | |
Nagashree et al. | Hand gesture recognition using support vector machine | |
CN113158866A (zh) | 一种基于注意力机制与数据不平衡的跨年龄人脸识别方法 | |
Singla et al. | Age and gender detection using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |