CN115147758A - 基于帧内帧间特征差异化的深度伪造视频检测方法及*** - Google Patents

基于帧内帧间特征差异化的深度伪造视频检测方法及*** Download PDF

Info

Publication number
CN115147758A
CN115147758A CN202210718973.3A CN202210718973A CN115147758A CN 115147758 A CN115147758 A CN 115147758A CN 202210718973 A CN202210718973 A CN 202210718973A CN 115147758 A CN115147758 A CN 115147758A
Authority
CN
China
Prior art keywords
frame
features
inter
intra
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210718973.3A
Other languages
English (en)
Inventor
王风宇
肖扬
孔健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210718973.3A priority Critical patent/CN115147758A/zh
Publication of CN115147758A publication Critical patent/CN115147758A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开属于伪造视频检测技术领域,具体涉及一种基于帧内帧间特征差异化的深度伪造视频检测方法及***,包括:获取深度伪造视频的原始数据;基于所获取的原始数据提取帧内特征和帧间特征;计算所提取到的帧内特征和帧间特征之间的差异化和欧氏距离;根据所得到的差异化和欧氏距离,完成深度伪造视频真伪的检测。

Description

基于帧内帧间特征差异化的深度伪造视频检测方法及***
技术领域
本公开属于伪造视频检测技术领域,具体涉及一种基于帧内帧间特征差异化的深度伪造视频检测方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着深度学习技术的发展,越来越多的合成视频出现在人们的日常生活中;在强大的能力下能够合成人类难以察觉的伪造图像和视频,致使人们仅凭肉眼很难识别被这些合成的伪造图像。
在现有技术中,采用面部合成技术,通过在移动设备上点击几下,便可提供具有吸引力的服务,如面部交换和面部表情处理;然而,这种人工智能技术存在着较大的安全和隐私问题,比如威胁面部识别***等等,极易造成较大的社会影响和危害。近年来,随着深度伪造人脸合成视频的大量涌现,出现了一系列针对此类视频的检测技术。另外,还有通过使用生物特征信息(如眨眼或头部姿势和高级训练集)来开发复杂的面部伪造检测***,以训练能够识别深度伪造视频的检测器。
据发明人了解,尽管基于捕获单一特征的技术,如卷积网络痕迹、生物活性检测和视频图片帧内特征,在检测任务方面取得了良好的进展,但对于低质量和混合人工智能合成的伪造人脸视频,检测算法的准确性还有很大的改进空间。目前在人脸身份交换中,单帧图像是伪造技术的着手点,很少有考虑单帧图像之间的动态变化。对一个物体的单一模态的操作可能会导致其他模态的不一致。
发明内容
为了解决上述问题,本公开提出了一种基于帧内帧间特征差异化的深度伪造视频检测方法及***,通过伪造视频的帧内特征和帧间特征之间的差异化可以更有效地对抗伪造视频,捕捉伪造视频的帧内特征和帧间特征及其差异化,进而提高深度伪造视频的检测。
根据一些实施例,本公开的第一方案提供了一种基于帧内帧间特征差异化的深度伪造视频检测方法,采用如下技术方案:
一种基于帧内帧间特征差异化的深度伪造视频检测方法,包括:
获取深度伪造视频的原始数据;
基于所获取的原始数据提取帧内特征和帧间特征;
计算所提取到的帧内特征和帧间特征之间的差异化和欧氏距离;
根据所得到的差异化和欧氏距离,完成深度伪造视频真伪的检测。
作为进一步的技术限定,在获取深度伪造视频的原始数据之后,对所获取的原始数据进行格式的统一化处理,以帧为单位将所得到的深度伪造视频的原始数据提取成图片帧,抑制除人脸部分之外的无关视频背景的干扰。
进一步的,采用瓶颈注意力优化进行图片帧的特征优化,利用注意力机制提取面部区域特征,抑制不相关背景。
进一步的,在图片帧的提取过程中,使用face recognition库定位裁剪图片帧中的人脸区域,将图片设置为128×128统一保存。
作为进一步的技术限定,在提取帧内特征的过程中,采用RGB 图像,通过密集光流来表示帧间流,基于光流特征聚焦面部变化较大的区域,完成帧内特征的提取。
作为进一步的技术限定,在提取帧间特征的过程中,通过计算前后两帧图像上所有像素点的偏移矢量,对所有像素点的移动偏移的光流跟踪估算,完成帧间特征的提取。
作为进一步的技术限定,采用交叉熵损失函数分别计算帧内特征和帧间特征的损失函数,计算损失函数的加权和,得到帧内特征与帧间特征的差异化。
根据一些实施例,本公开的第二方案提供了一种基于帧内帧间特征差异化的深度伪造视频检测***,采用如下技术方案:
一种基于帧内帧间特征差异化的深度伪造视频检测***,包括:
获取模块,其被配置为获取深度伪造视频的原始数据;
提取模块,其被配置为基于所获取的原始数据提取帧内特征和帧间特征;
计算模块,其被配置为计算所提取到的帧内特征和帧间特征之间的差异化和欧氏距离;
检测模块,其被配置为根据所得到的差异化和欧氏距离,完成深度伪造视频真伪的检测。
根据一些实施例,本公开的第三方案提供了一种计算机可读存储介质,采用如下技术方案:
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于帧内帧间特征差异化的深度伪造视频检测方法中的步骤。
根据一些实施例,本公开的第四方案提供了一种电子设备,采用如下技术方案:
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于帧内帧间特征差异化的深度伪造视频检测方法中的步骤。
与现有技术相比,本公开的有益效果为:
本公开构建了一个双网络结构,其中使用两个改进的CNN子网络对输入的数据分别提取帧内和帧间特征进行训练,采用对比损失函数来关联这两个子网络并捕获帧内帧间特征之间的不和谐;分别在帧内子网络和帧间子网络的全连接层后使用交叉熵损失函数,并将其和对比损失一起组合成网络的总体损失函数来提高网络的学习效果;
本公开在网络中加入了瓶颈注意力模块,以基于其全局特征统计信息来优化输入特征图,将瓶颈注意力模块被放置在模型的瓶颈处,使较低层的特征能够受益于上下文信息。采用轻量级的模块设计进而使得整个程序以高效的方式运行。
本公开显著提高了在深度伪造检等相关工作中的检测精度和正确率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例一中的基于帧内帧间特征差异化的深度伪造视频检测方法的流程图;
图2是本公开实施例一中的基于帧内帧间特征差异化的深度伪造视频检测方法的整体架构图;
图3是本公开实施例一中的帧内子网络的结构图;
图4是本公开实施例一中的瓶颈注意力模块的结构图;
图5是本公开实施例二中的基于帧内帧间特征差异化的深度伪造视频检测***的结构框图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
本公开实施例一介绍了一种基于帧内帧间特征差异化的深度伪造视频检测方法。
如图1和图2所示的一种基于帧内帧间特征差异化的深度伪造视频检测方法,包括:
步骤S01:获取深度伪造视频的原始数据;
步骤S02:基于所获取的原始数据提取帧内特征和帧间特征;
步骤S03:计算所提取到的帧内特征和帧间特征之间的差异化和欧氏距离;
步骤S04:根据所得到的差异化和欧氏距离,完成深度伪造视频真伪的检测。
作为一种或多种实施方式,在步骤S01中,搜索收集相关深度伪造方面的数据集,对收集好的数据集进行格式统一化,生成标签,图片人脸定位,图片裁剪等预处理。然后对数据集进行划分。
采用的对比数据集均是公开数据集,包括FaceForensics++、DeepfakeTIMIT、UADFV和Celeb DF数据集。这些数据集大多从 Youtube或其他公开视频网站采集的人物正脸视频,然后通过不同的伪造手段在此基础上进行创造伪造视频。因所搜集的数据集中的数据都是以视频的形式在网上流传且互相之前没有统一的格式和划分真伪的标签,所以在正式实验开始前,还需对涉及到的每一个数据集进行统一化的数据预处理,即进行数据格式的统一化;对于数据集中的不同格式不同大小的视频,以帧为单位将所有视频提取成图片。
为了提高网络训练的效果且能在训练中抑制除人脸部分的无关视频背景的干扰,对于所有从数据集视频中提取出的图片帧,本实施例使用face recognition库定位裁剪图片帧中的人脸区域并统一调整为128×128的图片大小保存。在数据格式统一化后,要根据数据集中视频的真伪以及训练数据的划分对每一张图片进行标签处理。
在本实施例中,将Face Forensics++等数据集按5:1:1的比例分为训练集、验证集和测试集,以评估训练后的网络模型在未知真假的视频文件上的泛化能力。值得注意的是,与之前的一些研究不同,每个数据集都包含来自不同身份(真实和虚假)的视频。为了公平评估和预测虚假检测***对未知身份的泛化能力,这一方面非常重要。并且为了测试在不同伪造方式数据集上的泛化模型,相对于只针对单个数据集的数据进行了训练检测,本实施例将采用双流网络HOR (Detecting Deep fake Videos using the Disharmonybetween Intra-and Inter-frame Maps)对混合了多种不同伪造方式的训练数据的检测评估能力。
作为一种或多种实施方式,在步骤S02中,从所获取的数据中提取对应的帧内特征和帧间特征,用以作为原始输入来训练后面的双流检测网络模型。
本实施例中的整体网络架构是由两个卷积神经(Convolutional NeuralNetworks,CNN)子网络组成的双流网络,子网络分别是用来提取帧内空间特征的帧内子网络以及提取帧间时间特征的帧间子网络。
帧内子网络从视频的RGB图像中提取帧内特征,帧间子网络从视频的密集光流图中提取帧间特征;对于帧间流,使用密集光流来表示帧间流。因为深度伪造在视频处理中的基本原理是处理伪造每一帧图像,然后将其生成的伪造图像连接起来。这将导致面部变化较大的区域(例如眼睛、嘴唇)可能会因为前后不连贯性出现更大的变形。与其他基于帧内图像特征的传统技术相比,使用光流特征可以更好地聚焦在面部变化较大的区域,提高检测准确率。
通过判断帧内特征和帧间特征之间的差异化来判断视频是真还是假的;帧内特征和帧间特征的差异化是通过对比损失函数来捕捉的,这使得帧内和帧间特征之间的欧式距离对于真实视频来说更小,而对于伪造视频来说则更大。
具体的,如图2所示,帧内子网络从视频的RGB图中提取帧内特征,帧间网络从经过提前预处理的视频密集光流图中提取帧间特征;帧内帧间子网络的网络架构都是基于使用了可分离式卷积的ResNet 网络,所采用的残差学习机制解决了网络收敛变慢、训练效果退化等现象。
在帧间特征提取的过程中,采用了密集光流算法,具体的:
光流主要可以分为稀疏光流和密集光流。两者原理类似,但稀疏光流只针对图像上特意选取的像素点在前后两帧图像中的移动估算。而密集光流则是通过计算前后两帧图像上所有像素点的偏移矢量来实现对所有像素点的移动偏移的光流跟踪估算算法。
密集光流算法的主要算法思路首先确定每个像素点的权重根据其附近邻域内的其他像素点的像素值和坐标,然后用多项式对该点的坐标进行展开。将图像视为二维信号的函数(输出图像为灰度图像),因变量如公式(1)所示。然后使用二次多项式对于图像进行近似建模,如公式(2)所示,其中A代表2x2的对称矩阵,b是2x1的向量矩阵,c是标量:
x=(x,y)T (1)
f(x)~xTAx+bTx+c (2)
然后通过系数化,公式(2)右侧可以写为公式(3):
Figure BDA0003710591740000091
原有图像的二维信号空间(笛卡尔坐标系)需要一个六维向量作为系数转换到以(1,x,y,x2,y2,xy)为基函数的空间,代入不同像素点的位置x,y求出不同象素点的灰度值。为了得到每帧图像中的每个像素点的六位系数,Farnback算法设定一个(2n+1)×(2n+1)的邻域在每个像素点的周围,然后用像素点领域中的(2n+1)2个像素点作为最小二乘法的样本点来进行拟合。
在一个像素点邻域内大小为(2n+1)×(2n+1)的灰度值矩阵中,将矩阵拆分组合成(2n+1)2×1的向量f按列优先的顺序,同时已知(1,x,y,x2,y2,xy)为基函数的转换矩阵B的维度为(2n+1)2×6 (即6个列向量bi共同组成的矩阵),邻域内共有的系数向量r的维度为6×1,则有公式(4):
f=B×r=(b1 b2 b3 b4 b5 b6)×r (4)
利用最小二乘法求解时,Farnback算法是利用二维高斯分布来对邻域内每个像素点的样本误差来赋予权重。在每个像素点邻域内二维高斯分布的(2n+1)×(2n+1)矩阵中,将矩阵以列优先次序拆分成(2n+1)2×1的向量a。如公式(5)所示,原本的基函数的转换矩阵B将转变为:
B=(a·b1 a·b2 a·b3 a·b4 a·b5 a·b6) (5)
通过对偶的方式再次转换基函数矩阵B,便可以得到单张图像中每个像素点的系数向量。之后通过参数向量计算和局部模糊化处理便可以得到光流场,得到光流场后为了使帧间流的输入数据结构与帧内流的RGB三层数据结构相对应,将两层光流数据矩阵补充为三层矩阵。
帧内子网络的网络架构由36个卷积层组成,该网络基于Xception 网络模型,该网络在图像视觉方面表现出强大的学习能力。
帧间子网络用于探索视频帧中人脸重点区域的时空长距离上下文相关性,以增强学习表示的能力。本实施例使用密集光流通过前后两帧图像中来推断出图像中像素点的位移过程和方向进而通过帧间子网络从密集光流中捕获特征。
具体的,使用了OpencCV中提供的calcOpticalFlowFarneback函数,该函数采用的是基于图像金字塔建模的Farneback密集光流算法。算法根据前后两帧中的所有像素点搭建三层的图像金字塔,每一层的大小是前一层的一半。在三次迭代中,用于构建流的窗口大小设置为 15。再分别对两个图像金字塔自顶向底地对每一层图像进行 Farneback密集光流算法计算。通过建立图像金字塔可以使光流更容易捕获移动幅度较大的物体。
在帧间子网络的总体结构方面,整体类似于与帧内子网络,但为了更好地提取帧间特征,在网络中尾部添加了LSTM(Long short-term memory,长短期记忆)网络层。这可以解决长序列训练过程中梯度爆照和梯度消失问题。与视觉流类似,本实施例在帧间子网络的末尾添加了一个softmax层,输出被纳入帧间模式的交叉熵损失中。
为了提高网络的检测能力,本实施例引入了如图3所示瓶颈注意力模块。瓶颈注意力模块利用注意力(attention)机制从视频帧的面部区域提取重点特征,并抑制不相关的背景信息。
瓶颈注意力模块利用注意力(attention)机制从视频帧的面部区域提取重点特征,并抑制不相关的背景信息;该模块的输入是网络瓶颈处的帧级特征映射集。
特征图由
Figure BDA0003710591740000121
其中C、H和W分别表示特征图的通道数、高度和宽度。对于给定的输入特征映射
Figure BDA0003710591740000122
瓶颈注意力模块推断出3D注意图
Figure BDA0003710591740000123
瓶颈注意力模块最后的输出 F′计算如下:
Figure BDA0003710591740000124
3D注意图M(F)的具体实现是通过分别计算通道注意力
Figure BDA0003710591740000125
和空间注意力
Figure BDA0003710591740000126
在两个独立的分支上。在通道注意力上,输入张量F首先采用全局平均池化层(global average pool)对每个通道中的全局信息进行软编码。然后,使用一个带有一个隐藏层的多层感知器(MLP)从通道向量MC(F)计算跨通道的注意力。为了适应spatial分支输出数据的大小,瓶颈注意力模块在MLP 之后添加一个批标准化(BatchNormalization)层。简言之,通道注意力MC(F)的计算如下:
MC(F)=BN(MLP(AvqPool(F)) (7)
空间分支通过生成空间注意图
Figure BDA0003710591740000127
来突出或忽视不同空间位置的特征。其中最重要的是在空间维度上要有一个大的感知区域来有效地利用上下文信息。而扩张卷积可以用于高效率地扩大感知区域。空间分支采用ResNet提出的瓶颈结构,节省了参数数量和计算开销。具体来说,为了在通道维度上集成和压缩特征映射,使用1×1 卷积来投影特征
Figure BDA0003710591740000128
降低维度为
Figure BDA0003710591740000129
简言之,空间注意力的计算公式如下:
Figure BDA00037105917400001210
其中,c表示卷积运算,BN表示批标准化运算,上标表示卷积滤波器的大小。
最后,在获得通道注意力MC(F)和空间注意力MS(F)后,结合两个注意力分支产生最终得M(F)。由于通道注意力MC(F)和空间注意力 MS(F)具有不同的维度,在组合MS(F)和MC(F)之前,将注意力映射扩展到
Figure BDA0003710591740000131
在元素求和之后,使用sigmoid函数获得0到1范围内的最终3D注意力映射M(F)。将该3D注意力图与原始输入特征图F相乘,然后将其添加到原始输入特征图F上,以获得最后瓶颈注意力模块的输出特征图,如公式(6)所示。
在CNN中使用自我注意力机制的主要优点为高效的全局上下文建模,有效的反向传播(即模型训练)。全局环境允许模型更好地识别局部模糊的模式,并重点关注重要部分。因此,捕捉和利用全局环境对于各种视觉任务至关重要。在这方面,CNN模型通常会堆叠许多卷积层,或使用池化操作来确保特征具有较大的感受野。
作为一种或多种实施方式,在步骤S03中,本实施例对帧内子网络和帧间子网络提取出的帧内帧间特征使用交叉损失函数来计算两者的差异性以及使用帧内子网络和帧间子网络通过交叉熵损失学习有区别的单峰特征。
在子网络对输入的数据分别提取到特征后,通过全连接层将提取到的特征分别输出到对比损失函数以及交叉熵损失函数。使用对比损失函数从提取的帧内特征和帧间特征之间捕获两者的差异化,并通过它们之间的欧式距离来度量。
交叉熵损失具有简单性和高效性的优点是深度伪造检测任务中比较常用的损失函数。但在本实施例所提出的HOR检测网络中,使用了对比损失作为目标函数的关键组成部分。在起初对比损失函数主要作用在与降维相关的方面,其理论依据是数据样本的在特征空间上的相似性不受降维(特征提取)而转移。所以本实施例利用对比损失能够有效的反应出样本之间的相似性的特点,提出了基于帧内特征和帧间特征的差异化检测方法。对比损失使***纵视频的差异性得分最大化,同时使真实视频的差异性得分最小化。相对于使用交叉熵损失函数的传统检测网络,具有更好的检测效果。
对比损失使***纵视频的差异性得分最大化,同时使真实视频的差异性得分最小化。对比损失函数由公式(9)所示,其中,yi是视频vi的标签,边距margin是一个超参数。差异性分数
Figure BDA0003710591740000145
是分别表示帧内子网络和帧间子网络的帧内特征fa和帧间特征fe之间的欧氏距离。此外,本实施例使用帧内子网络和帧间子网络的交叉熵损失分别学习特征表示。这些损失函数在公式(11)(帧内)和公式(12)(帧间)中有着定义。总损失是这三个损失的加权和,如公式(13)所示:
Figure BDA0003710591740000141
Figure BDA0003710591740000142
Figure BDA0003710591740000143
Figure BDA0003710591740000144
L=Lc+La+Le (13)
作为一种或多种实施方式,在步骤S04中,检测视频的真伪是根据帧内子网络的输出特征与帧间子网络的输出特征的欧氏距离来判断。为了标记测试视频,本实施例使用1{d_t^i<τ},其中1{.}代表将欧氏距离d_t^i与阈值τ进行比较表示逻辑指示器功能。τ由训练集确定。本实施例通过计算训练集的真实和虚假视频的欧氏距离,真实和虚假视频的平均值之间的中点用作τ的代表值。
如果一个视频被表示为不同的模态,单独操纵任一个模态将导致模态之间产生一些差异性。一般来说,真实视频的帧内帧间特征的差异性是会明显小于虚假视频帧内帧间特征的差异性;而差异性的度量是由欧式距离来表达的,即欧式距离越大差异性越大,欧式距离越小差异性越小;通过欧式距离的大小跟规定的阈值比较来确定视频的真伪。
本实施例基于深度伪造视频帧内和帧间特征之间的差异化,提出了一种新的双网络架构的深度伪造检测方法,通过构建一个双网络结构,其中两个改进的CNN子网络分别用于提取帧内和帧间特征,对比损失函数用于捕获两者之间的差异化;使用了对比损失函数来表示帧内特征和帧间特征之间的关系。在其他基于伪造音像的研究中,对比损失函数被用来检测伪造音像中音频与画面是否一致;考虑到最新的公共数据集,进行了彻底的实验评估。评估结果验证了本实施例在人脸视频检测中的优越性,也证实了RGB图像与光流差异化的假设;本实施例中的网络组成架构还包括帧内子网络和帧间子网络,这些子网络旨在通过交叉熵损失学习有区别的单峰特征。后续的实验表明,额外包含交叉熵损失的网络检测效果比仅使用对比损失的网络检测效果检测精度更高。
实施例二
本公开实施例二介绍了一种基于帧内帧间特征差异化的深度伪造视频检测***。
如图5所示的一种基于帧内帧间特征差异化的深度伪造视频检测***,包括:
获取模块,其被配置为获取深度伪造视频的原始数据;
提取模块,其被配置为基于所获取的原始数据提取帧内特征和帧间特征;
计算模块,其被配置为计算所提取到的帧内特征和帧间特征之间的差异化和欧氏距离;
检测模块,其被配置为根据所得到的差异化和欧氏距离,完成深度伪造视频真伪的检测。
详细步骤与实施例一提供的基于帧内帧间特征差异化的深度伪造视频检测方法相同,在此不再赘述。
实施例三
本公开实施例三提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例一所述的基于帧内帧间特征差异化的深度伪造视频检测方法中的步骤。
详细步骤与实施例一提供的基于帧内帧间特征差异化的深度伪造视频检测方法相同,在此不再赘述。
实施例四
本公开实施例四提供了一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的基于帧内帧间特征差异化的深度伪造视频检测方法中的步骤。
详细步骤与实施例一提供的基于帧内帧间特征差异化的深度伪造视频检测方法相同,在此不再赘述。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种基于帧内帧间特征差异化的深度伪造视频检测方法,其特征在于,包括:
获取深度伪造视频的原始数据;
基于所获取的原始数据提取帧内特征和帧间特征;
计算所提取到的帧内特征和帧间特征之间的差异化和欧氏距离;
根据所得到的差异化和欧氏距离,完成深度伪造视频真伪的检测。
2.如权利要求1中所述的一种基于帧内帧间特征差异化的深度伪造视频检测方法,其特征在于,在获取深度伪造视频的原始数据之后,对所获取的原始数据进行格式的统一化处理,以帧为单位将所得到的深度伪造视频的原始数据提取成图片帧,抑制除人脸部分之外的无关视频背景的干扰。
3.如权利要求2中所述的一种基于帧内帧间特征差异化的深度伪造视频检测方法,其特征在于,采用瓶颈注意力优化进行图片帧的特征优化,利用注意力机制提取面部区域特征,抑制不相关背景。
4.如权利要求2中所述的一种基于帧内帧间特征差异化的深度伪造视频检测方法,其特征在于,在图片帧的提取过程中,使用face recognition库定位裁剪图片帧中的人脸区域,将图片设置为128×128统一保存。
5.如权利要求1中所述的一种基于帧内帧间特征差异化的深度伪造视频检测方法,其特征在于,在提取帧内特征的过程中,采用RGB图像,通过密集光流来表示帧间流,基于光流特征聚焦面部变化较大的区域,完成帧内特征的提取。
6.如权利要求1中所述的一种基于帧内帧间特征差异化的深度伪造视频检测方法,其特征在于,在提取帧间特征的过程中,通过计算前后两帧图像上所有像素点的偏移矢量,对所有像素点的移动偏移的光流跟踪估算,完成帧间特征的提取。
7.如权利要求1中所述的一种基于帧内帧间特征差异化的深度伪造视频检测方法,其特征在于,采用交叉熵损失函数分别计算帧内特征和帧间特征的损失函数,计算损失函数的加权和,得到帧内特征与帧间特征的差异化。
8.一种基于帧内帧间特征差异化的深度伪造视频检测***,其特征在于,包括:
获取模块,其被配置为获取深度伪造视频的原始数据;
提取模块,其被配置为基于所获取的原始数据提取帧内特征和帧间特征;
计算模块,其被配置为计算所提取到的帧内特征和帧间特征之间的差异化和欧氏距离;
检测模块,其被配置为根据所得到的差异化和欧氏距离,完成深度伪造视频真伪的检测。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于帧内帧间特征差异化的深度伪造视频检测方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于帧内帧间特征差异化的深度伪造视频检测方法中的步骤。
CN202210718973.3A 2022-06-23 2022-06-23 基于帧内帧间特征差异化的深度伪造视频检测方法及*** Pending CN115147758A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210718973.3A CN115147758A (zh) 2022-06-23 2022-06-23 基于帧内帧间特征差异化的深度伪造视频检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210718973.3A CN115147758A (zh) 2022-06-23 2022-06-23 基于帧内帧间特征差异化的深度伪造视频检测方法及***

Publications (1)

Publication Number Publication Date
CN115147758A true CN115147758A (zh) 2022-10-04

Family

ID=83407530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210718973.3A Pending CN115147758A (zh) 2022-06-23 2022-06-23 基于帧内帧间特征差异化的深度伪造视频检测方法及***

Country Status (1)

Country Link
CN (1) CN115147758A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011766A (zh) * 2023-07-26 2023-11-07 中国信息通信研究院 基于帧内差异化的人工智能检测方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011766A (zh) * 2023-07-26 2023-11-07 中国信息通信研究院 基于帧内差异化的人工智能检测方法和***
CN117011766B (zh) * 2023-07-26 2024-02-13 中国信息通信研究院 基于帧内差异化的人工智能检测方法和***

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN104933414A (zh) 一种基于wld-top的活体人脸检测方法
CN103996201A (zh) 一种基于改进梯度和自适应窗口的立体匹配方法
CN112418041A (zh) 一种基于人脸正面化的多姿态人脸识别方法
CN114937083B (zh) 一种应用于动态环境的激光slam***及方法
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN113283525A (zh) 一种基于深度学习的图像匹配方法
CN110070574A (zh) 一种基于改进PSMNet的双目视觉立体匹配算法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN111797702A (zh) 基于空间局部二值模式与光流梯度的人脸伪造视频检测方法
CN117095128A (zh) 一种无先验多视角人体服饰编辑方法
Wu et al. Single-shot face anti-spoofing for dual pixel camera
CN112329764A (zh) 一种基于tv-l1模型的红外弱小目标检测方法
CN113487530B (zh) 一种基于深度学习的红外与可见光融合成像方法
CN115147758A (zh) 基于帧内帧间特征差异化的深度伪造视频检测方法及***
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN114066844A (zh) 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法
CN113705358A (zh) 一种基于特征映射的多角度侧脸正面化方法
CN117576753A (zh) 基于面部关键点的注意力特征融合的微表情识别方法
Khan et al. Towards monocular neural facial depth estimation: Past, present, and future
CN117133041A (zh) 一种基于深度学习的三维重建网络人脸识别方法、***、设备及介质
CN112069943A (zh) 基于自顶向下框架的在线多人姿态估计与跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination