CN114067381A

CN114067381A - 一种基于多特征融合的深度伪造识别方法和装置

Info

Publication number: CN114067381A
Application number: CN202110473432.4A
Authority: CN
Inventors: 操晓春; 韩冰; 韩晓光; 张华�; 李京知
Original assignee: Institute of Information Engineering of CAS; Shenzhen Research Institute of Big Data SRIBD
Current assignee: Institute of Information Engineering of CAS; Shenzhen Research Institute of Big Data SRIBD
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-02-18

Abstract

本发明公开了一种基于多特征融合的深度伪造识别方法和装置。主要步骤包括：(1)对视频进行分段提帧并进行人脸对齐预处理；(2)采用RGB输入流和可学习SRM输入流共同对视频帧进行处理；(3)RGB输入流对视频帧进行特征提取并进行帧间融合；(4)可学习SRM输入流去除经典SRM算法的不可导部分，将超参数q替换成30个5*5的可学习矩阵并初始化；(5)将经典SRM算法中的30个预设参数的SRM滤波器转换为可学习的SRM卷积核并***到(3)中的识别网络，构成可学习SRM网络；最后对RGB流和可学习SRM流的输出进行融合，得到最终识别结果。本发明可以有效提高在低清晰度视频上的深度伪造识别效果。

Description

一种基于多特征融合的深度伪造识别方法和装置

技术领域

本发明属于计算机视觉深度伪造识别领域，特别涉及一种基于多特征融合的深度伪造识别方法和装置。

背景技术

深度伪造一词来源于一款名为Deepfakes的换脸软件，后被引申为指代所有利用计算机图形学或者深度学习技术实现的AI换脸技术。深度伪造技术的滥用在近些年为社会带来了许多负面影响，对深度伪造的有效视频。深度伪造识别的一般流程是，首先对给定深度伪造视频进行人脸检测，然后对提取出的人脸进行特征提取，最后根据提取的特征判断给定视频是否为深度伪造。

目前常见的深度伪造识别算法有FWA(Y.Li and S.Lyu,“Exposing deepfakevideos by detecting face warping artifacts,”in IEEE Conference on ComputerVision and Pattern Recognition Workshops,CVPR Workshops.Computer VisionFoundation/IEEE,2019,pp.46–52.)、Xception(F.Chollet,“Xception:Deep learningwith depthwise separable convolutions,”in Proceedings of the IEEE conferenceon computer vision and pattern recognition,2017,pp.1251–1258.)等算法。其FWA主要是对深度伪造视频生成的最后一步即将真实人脸替换为伪造人脸时产生的拼接痕迹进行检测；而Xception则是对整个深度伪造生成过程中产生的伪造痕迹进行检测。

深度伪造识别的一个难点是，当伪造视频的清晰度较低时，伪造痕迹如人脸边缘的拼接痕迹、视频帧间的不一致性和伪造人脸的生成痕迹等将更加难以发现，这大大增加了深度伪造识别的难度。目前的深度伪造方法在低清晰度视频上并不能取得很好的效果。

发明内容

本发明主要解决的技术问题是提供一种深度伪造识别方法和装置，能够解决现有识别方法在低清晰度深度伪造视频上效果不好的问题。

为解决上述技术问题，本发明提出一种基于多特征融合的深度伪造识别方法，包括以下步骤：

将输入视频平均分成若干视频段，对于每个视频段随机采样若干视频帧，对选取的各视频帧进行人脸检测和人脸对齐，作为输入视频帧；

采用RGB输入流和可学习SRM输入流分别对输入视频帧进行处理，其中RGB输入流提取视频帧中可疑伪造部位的语义特征并根据语义特征得到深度伪造识别的预测结果，可学习SRM输入流拟合视频帧中可疑伪造部位的噪音特征并根据噪音特征得到深度伪造识别的预测结果；

将RGB输入流的预测结果与可学习SRM输入流的预测结果进行融合，得到最终的深度伪造识别结果。

进一步地，所述对于每个视频段随机采样若干视频帧，在提取视频帧时尽量使用png格式，以减少图片压缩对篡改痕迹的影响。

进一步地，所述RGB输入流提取视频帧中可疑伪造部位的语义特征并根据语义特征得到深度伪造识别的预测结果，包括：

对于RGB输入流，将人脸对齐后的各视频帧分别用Xception网络进行特征提取，Xception网络提取出各视频帧中可疑伪造部位的语义特征，最后对提取出的所有特征求平均并通过Softmax函数进行激活，得到RGB输入流的输出，整个过程中的Xception网络共享参数。

进一步地，所述可学习SRM输入流拟合视频帧中可疑伪造部位的噪音特征并根据噪音特征得到深度伪造识别的预测结果，包括：

对于可学习SRM输入流，首先去除经典SRM算法中的不可导部分，即round函数和truncate函数，然后将超参数q替换为30个5*5的可学习矩阵以对应经典SRM算法中的30个SRM滤波器，并分别初始化为所有元素都相等且等于其对应SRM滤波器中元素的最大绝对值；

将30个SRM滤波器分别与其对应的可学习矩阵相除，得到维度为30*5*5的可学习矩阵，然后将该矩阵扩展为30*3*5*5的SRM卷积核，作为神经网络的第一层***原有的Xception网络架构，并对原有的Xception网络的第一层进行微调，构成可学习SRM网络；

对于可学***均并通过Softmax函数进行激活，得到可学习SRM输入流的输出；整个过程中可学习SRM网络共享参数。

进一步地，所述RGB输入流和可学习SRM输入流中，流内的网络共享参数，而流间网络则独立训练。

进一步地，通过设置可学习矩阵，保证网络训练过程不会对SRM滤波器的本质特征造成破坏；采用可学习矩阵保留预设的30个SRM滤波器中的0值元素，从而保留其计算噪音信息的特征；通过初始化可学习矩阵的方式，保证将SRM卷积核的所有参数初始化为属于[-1,1]的值。

进一步地，将30*5*5的可学习矩阵扩展为30*3*5*5的卷积核的方式是在第二维度上将5*5的矩阵复制为完全相等的3份。

基于同一发明构思，本发明还提供一种采用上述方法的基于多特征融合的深度伪造识别装置，其包括：

预处理模块，用于将输入视频平均分成若干视频段，对于每个视频段随机采样若干视频帧，对选取的各视频帧进行人脸检测和人脸对齐，作为输入视频帧；

双输入流处理模块，用于采用RGB输入流和可学习SRM输入流分别对输入视频帧进行处理，其中RGB输入流提取视频帧中可疑伪造部位的语义特征并根据语义特征得到深度伪造识别的预测结果，可学习SRM输入流拟合视频帧中可疑伪造部位的噪音特征并根据噪音特征得到深度伪造识别的预测结果；

融合模块，用于将RGB输入流的预测结果与可学习SRM输入流的预测结果进行融合，得到最终的深度伪造识别结果。

本发明的特点及有益效果是：

本发明采用基于多特征融合的网络对深度伪造视频进行识别，可以同时对输入视频在语义特征和噪音特征上的伪造痕迹进行拟合，并有效提高了现有深度伪造识别方法在低清晰度视频上的效果。

附图说明

图1：网络框架结构图。

图2：多种SRM流计算方式可视化结果。

具体实施方式

本发明针对现有深度伪造算法在处理低清晰度深度伪造视频时效果不够理想的问题，提出一种基于多特征融合的深度伪造识别方法，该方法的整体框架结构如图1所示。下面进行实验来说明本发明的有效性。

实验数据采用FaceForensics++深度伪造数据集的最低清晰度版本，共有1000段真实视频，每一段真实视频均有对应3个分别由Deepfakes，FaceSwap和Face2Face算法生成的伪造视频，即共有3000段伪造视频。

实验步骤如下：

(1)首先将输入视频V平均分成K段{v₁,v₂,…,v_K}，对于每一段视频v_i，随机采样T帧

最后对选取的K*T帧利用Dlib(A.Rossler,D.Cozzolino,L.Verdoliva,C.Riess,J.Thies,and M.Nieβner,“Faceforensics:A large-scale video dataset forforgery detection in human faces,”2018.)进行人脸检测和人脸对齐：

I_k＝A(v_k)

I_k表示要送入识别网络的输入；k∈[1,K]为K个视频段的索引，每一段视频包含T帧；A代表人脸对齐操作。

(2)选用RGB输入流和基于经典SRM算法(J.Fridrich and J.Kodovsky,“Richmodels for steganalysis of digital images,”IEEE Transactions on InformationForensics and Security,vol.7,no.3,pp.868–882,2012.)的可学习SRM输入流分别对输入视频帧进行处理。RGB输入流以对齐后的人脸作为输入，旨在提取人脸视频帧中的语义特征，而可学习SRM输入流则以对人脸进行SRM滤波器处理后的噪音图作为输入，主要专注于拟合人脸视频帧中的噪音特征：

为第k个视频段在RGB流的输入；

为第k个视频段在可学习SRM流的输入；S代表可学习SRM滤波器操作。

(3)对于RGB输入流，将人脸对齐后的K*T帧分别用Xception网络进行特征提取。Xception网络从K*T帧中提取可疑伪造区域的语义特征，最后对提取出的所有特征求平均并通过Softmax函数进行激活，得到RGB流的输出，即实现了RGB流的段融合。整个过程中的Xception网络共享参数为：

P_R＝σ(F_R)

F_R为RGB流的特征；Avg为取平均操作；W_R为RGB流的网络参数；⊙为卷积操作；σ为Softmax操作；P_R为RGB流的预测向量。

(4)对于可学习SRM输入流，由于经典的SRM算法在深度伪造任务上并不能取得很好的效果，选择引入可学习的SRM滤波器来更好地拟合人脸数据。为了实现可学习性，首先去除经典SRM算法中的不可导部分，即round函数和truncate函数。在经典SRM算法中使用truncate函数主要是为了计算共生矩阵，而本任务中并不需要计算共生矩阵；round函数则在引入学习性后就不再重要，因此选择去掉这两项不可导的部分从而实现可学习的SRM滤波器。在引入可学习性的同时，为了对SRM滤波器的学习过程进行一定的约束，引入可学习矩阵Q代替超参数q，并维持经典SRM算法中的30个滤波器的值不变。超参数q被替换为30个5*5的可学习矩阵Q以对应经典SRM算法中的30个SRM滤波器，并分别初始化为所有元素都相等且等于其对应SRM滤波器中元素的最大绝对值。

该第(4)步中设置可学习矩阵的目的是为了保证网络训练过程不会对SRM滤波器的本质特征造成破坏。采用可学习矩阵可以保留预设的30个SRM滤波器中的0值元素，从而保留其计算噪音信息的特征。

该第(4)步中选用所述初始化可学习矩阵的方式的原因为了保证将SRM卷积核的所有参数初始化为属于[-1,1]的值。

(5)将30个SRM滤波器分别与(4)中得到的与其对应的可学习矩阵相除，得到维度为30*5*5的可学习矩阵。然后将该矩阵扩展为30*3*5*5的SRM卷积核，作为神经网络的第一层***原有的Xception网络架构，构成可学习SRM网络：

R为SRM滤波器的输出；X为SRM输入流的的输入；⊙为卷积操作；W为经典SRM算法中的滤波器矩阵。通过将经典SRM算法转换成卷积操作并去掉不可微部分，实现可学习的SRM滤波器。

其中，将30*5*5的可学习矩阵扩展为30*3*5*5的卷积核的方式是在第二维度上将5*5的矩阵复制为完全相等的3份。

(6)按照和(3)类似的方式对可学习SRM输入流进行处理，并将(3)中的原始Xception网络替换为(5)中得到的可学习SRM网络，用以对K*T帧中可疑伪造部位的噪音特征进行拟合和分析，从而得到可学习SRM流的预测结果P_s，即实现了SRM流的段融合。整个过程中可学习SRM网络的共享参数为：

P_S＝σ(F_s)

F_S为可学***均操作；W_S为RGB流的网络参数；⊙为卷积操作；σ为Softmax操作；S为RGB流的预测向量。

(7)用一个可学习的线性函数对(3)和(6)的输出进行融合，得到最终的预测结果：

P＝H(P_R，P_S)

P为最终预测结果(即视频的深度伪造识别结果)，P_R和P_S分别是RGB流和可学习SRM流的预测结果，H为线性函数。

下面进行测试。评价指标采用识别准确率：

其中，TP为真正例，FP为假正例。FN为假负例，TN为真负例。

对于数据，选择FaceForensics++中编号1-720的视频(包含720个真实视频和2160个伪造视频)作为训练集，编号为721-960的视频为验证集，编号为961-1000的视频作为测试集。

按照上述提到的实验方法进行120次训练，并选择在验证集上效果最好的一次作为待测试模型。用模型在测试集上进行测试，最后计算结果为，准确率为90.36％。

为了证明本方法的有效性，需要做两个对比实验，第一个对比实验为验证SRM流中的可学习性是否能为模型准确率带来提升。本方法在引入可学习性的时候还对SRM滤波器的学习过程进行了一定的约束，因此需要对比三种情况：不可学习，无约束的可学习以及有约束的可学习。实验采用Xception作为特征提取网络，并仅参考SRM流的准确率。最后计算结果为，不可学习的SRM流准确率为78.21％，无约束的SRM流准确率为85.71％，有约束的SRM流准确率为90.00％。

第二个对比实验为验证使用多特征融合是否可以提高网络的识别准确率，且该多特征融合方式是否对多种特征提取网络有效。作为对比，选用ResNet-101，LightCNN以及Xception作为特征提取网络，并分别采用单RGB特征以及多特征融合的方式进行测试。最后计算结果为，单RGB特征下ResNet-101的准确率为85.71％，LightCNN的准确率为86.43％，Xception的准确率为87.86％；多特征融合下ResNet-101的准确率为88.21％(+2.50)，LightCNN的准确率为87.86％(+1.43)，Xception的准确率为90.36％(+2.50)。

另外还可以对可学习SRM流的输出进行可视化。可视化结果证明由可学习SRM滤波器生成的噪音图可以准确反映出输入视频帧的伪造部位；同时也证明了相对于不可学习和无约束的SRM流，本发明提出的有约束可学习SRM流可以生成更好的噪音图。可视化结果如图2所示。

本发明的其他实施例中，第(3)步和第(5)中选用的Xception网络也可以替换为其他的识别网络。

基于同一发明构思，本发明的另一个实施例提供一种采用上述方法的基于多特征融合的深度伪造识别装置，其包括：

其中各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上所述仅为本发明的实施例，并非因此限制本发明涉及范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明请求保护范围内。

Claims

1.一种基于多特征融合的深度伪造识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于多特征融合的深度伪造识别方法，其特征是，所述对于每个视频段随机采样若干视频帧，在提取视频帧时尽量使用png格式，以减少图片压缩对篡改痕迹的影响。

3.如权利要求1所述的基于多特征融合的深度伪造识别方法，其特征是，所述RGB输入流提取视频帧中可疑伪造部位的语义特征并根据语义特征得到深度伪造识别的预测结果，包括：

4.如权利要求1所述的基于多特征融合的深度伪造识别方法，其特征是，所述可学习SRM输入流拟合视频帧中可疑伪造部位的噪音特征并根据噪音特征得到深度伪造识别的预测结果，包括：

将30个SRM滤波器分别与其对应的可学***均并通过Softmax函数进行激活，得到可学习SRM输入流的输出；整个过程中可学习SRM网络共享参数。

5.如权利要求3或4所述的基于多特征融合的深度伪造识别方法，其特征是，所述RGB输入流和可学习SRM输入流中，流内的网络共享参数，而流间网络则独立训练。

6.如权利要求4所述的基于多特征融合的深度伪造识别方法，其特征是，通过设置可学习矩阵，保证网络训练过程不会对SRM滤波器的本质特征造成破坏；采用可学习矩阵保留预设的30个SRM滤波器中的0值元素，从而保留其计算噪音信息的特征；通过初始化可学习矩阵的方式，保证将SRM卷积核的所有参数初始化为属于[-1,1]的值。

7.如权利要求4所述的基于多特征融合的深度伪造识别方法，其特征是，将30*5*5的可学习矩阵扩展为30*3*5*5的卷积核的方式是在第二维度上将5*5的矩阵复制为完全相等的3份。

8.一种采用权利要求1～7中任一权利要求所述方法的基于多特征融合的深度伪造识别装置，其特征在于，包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。