CN114463805B

CN114463805B - 深度伪造检测方法、装置、存储介质及计算机设备

Info

Publication number: CN114463805B
Application number: CN202111633779.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-11-15
Anticipated expiration: 2041-12-28
Also published as: CN114463805A

Abstract

本申请实施例涉及图像处理领域，并提供了一种深度伪造检测方法、装置、存储介质及计算机设备。其中方法包括：获取待识别的人脸图像，并对人脸图像进行特征提取，得到第一特征图；对第一特征图进行格式转换处理，得到第二特征图，其中，第二特征图包括多个局部块特征；获取多个局部块特征对应的位置权重信息，并根据多个局部块特征对应的位置权重信息，对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图；对第三特征图进行分类处理，得到人脸图像的检测结果，其中，检测结果用于指示第三特征图中的各个局部块特征中的目标局部块特征，目标局部块特征对应人脸图像中的伪造特征。上述方法能够有效的提高深度伪造检测的准确性。

Description

深度伪造检测方法、装置、存储介质及计算机设备

技术领域

本申请实施例涉及图像处理领域，尤其是涉及一种深度伪造检测方法、装置、存储介质及计算机设备。

背景技术

深度伪造，指的是基于深度学习等智能化方法创建或合成图像、音视频、文本等视听觉内容的媒体合成技术。通俗理解，“深度伪造”即是将一个人的脸部轮廓和表情放置在其他任何一个人的脸上，从而制造出实为合成却看似极真的视频或图像。一方面，深度伪造技术可以推动娱乐与文化交流产业的发展，如应用在电影制作中，用于创建虚拟角色、视频渲染、声音模拟、“复活”历史人物或已逝的亲朋好友等。另一方面，深度伪造技术也可用于误导舆论、扰乱社会秩序，甚至会威胁人脸识别***的安全等等。

在现有技术中，深度伪造检测方法中较为常见的一种是图像分类方法。该方法首先会收集大量的真实和伪造的数据来训练二分类深度神经网络，然后利用训练好的深度神经网络对待检测图片(包括独立的图像或视频钟的帧图像)进行分类，最后将图像的识别结果融合为视频的识别结果后进行输出。但是，在深度伪造的图像或视频中，伪造痕迹主要集中在一些特定的区域中，如整个面部、脸部轮廓和嘴巴附近等等，普通的分类模型无法加强对伪造区域的学习，因此，现有的图像分类方法对于深度伪造检测的准确性较差。

发明内容

有鉴于此，本申请提供了一种深度伪造检测方法、装置、存储介质及计算机设备，主要目的在于解决深度伪造检测的准确性较差的技术问题。

第一方面中，本申请实施例提供了一种深度伪造检测方法，该方法包括：

获取待识别的人脸图像，并对人脸图像进行特征提取，得到第一特征图；

对第一特征图进行格式转换处理，得到第二特征图，其中，第二特征图包括多个局部块特征；

获取多个局部块特征对应的位置权重信息，并根据多个局部块特征对应的位置权重信息，对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图；

对第三特征图进行分类处理，得到人脸图像的检测结果，其中，检测结果用于指示第三特征图中的各个局部块特征中的目标局部块特征，目标局部块特征对应人脸图像中的伪造特征。

第二方面中，本申请实施例提供了一种实施上述深度伪造检测方法的深度伪造检测装置，该装置包括：

输入输出模块，用于获取待识别的人脸图像；

处理模块，用于对人脸图像进行特征提取，得到第一特征图，并对第一特征图进行格式转换处理，得到第二特征图，其中，第二特征图包括多个局部块特征；

输入输出模块，还用于获取多个局部块特征对应的位置权重信息；

处理模块，还用于根据多个局部块特征对应的位置权重信息，对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图，以及对第三特征图进行分类处理，得到人脸图像的检测结果，其中，检测结果用于指示第三特征图中的各个局部块特征中的目标局部块特征，目标局部块特征对应人脸图像中的伪造特征；

输入输出模块，还用于对人脸图像的检测结果进行输出。

在一个实施例中，处理模块具体用于通过预训练的卷积神经网络，对人脸图像进行特征提取，得到第一特征图，其中，第一特征图包含三个维度的特征，第一特征图的三个维度分别为第一特征图的高、宽和通道数量。

在一个实施例中，处理模块具体用于将第一特征图从三维特征矩阵转换为二维特征矩阵，得到第二特征图，其中，第二特征图包含两个维度的特征，第二特征图的两个维度分别为第二特征图的局部块特征数量和特征长度。

在一个实施例中，处理模块具体用于根据多个局部块特征的位置权重信息，为每个局部块特征设置一个位置编码特征，其中，位置编码特征为一个预设长度的特征向量；分别对每个局部块特征和每个局部块特征对应的位置编码特征进行拼接，得到第二特征图的多个级联特征；在多个级联特征的起始位置处设置一个标志位特征，其中，标志位特征的长度与级联特征的长度相等；对第二特征图的标志位特征和各个级联特征进行注意力增强处理，得到第三特征图。

在一个实施例中，处理模块具体用于将第二特征图的标志位特征和各个级联特征输入到预训练的全连接层中，得到查询特征向量、属性特征向量和内容特征向量；对查询特征向量和转置后的属性特征向量的乘积进行归一化处理，得到注意力图；将注意力图和内容特征向量相乘，得到第三特征图。

在一个实施例中，处理模块具体用于将第三特征图输入到预训练的多层感知器中，得到人脸图像的深度伪造概率值；将人脸图像的深度伪造概率值与预设的概率阈值进行比较，根据比较结果得到人脸图像的检测结果。

在一个实施例中，输入输出模块还用于获取初始的图像数据或获取初始的视频数据；处理模块还用于通过人脸识别算法识别出图像数据中的人脸区域，对人脸区域进行截取操作，得到待识别的人脸图像；或通过人脸识别算法识别出视频数据中的每帧图像中的人脸区域，对人脸区域进行截取操作，得到待识别的人脸图像。

第三方面中，本申请实施例提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述深度伪造检测方法。

第四方面中，本申请实施例供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述深度伪造检测方法。

本申请实施例提供的一种深度伪造检测方法、装置、存储介质及计算机设备，首先对人脸图像进行特征提取，然后将提取出的特征转换为包含有多个局部块特征的第二特征图，进而获取多个局部块特征对应的位置权重信息，并根据位置权重信息对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图，最后对第三特征图进行分类处理，得到人脸图像的检测结果，以利用检测结果中的目标局部块特征指示出人脸图像中的伪造特征。上述方法通过将人脸图像中的高层特征转换为便于识别的局部块特征，并通过注意力增强处理提取出多个局部块特征的全局相关性特征，有效的加强了对人脸区域中伪造区域的关注度，从而提高了深度伪造检测的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请实施例的进一步理解，构成本申请的一部分，本申请实施例的示意性实施例及其说明用于解释本申请实施例，并不构成对本申请实施例的不当限定。在附图中：

图1示出了本申请实施例提供的一种深度伪造检测方法的场景示意图；

图2示出了本申请实施例提供的一种深度伪造检测方法的流程示意图；

图3示出了本申请实施例提供的一种深度伪造检测方法的检测原理图；

图4示出了本申请实施例提供的一种深度伪造检测方法的检测原理图；

图5示出了本申请实施例提供的一种深度伪造检测装置的结构示意图；

图6示出了本申请实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为更进一步阐述本申请实施例为达成预定目的所采取的技术手段及功效，以下结合附图及实施例，对依据本申请的具体实施方式、结构、特征及其功效，详细说明如后。在下述说明中，不同的“一实施例”或“实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

此外，虽然各个实施例中的步骤是按照序号依次排列的，但是这些步骤并不是必然按照序号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，每个实施例中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请实施例提供的深度伪造检测方法，可以应用于如图1所示的应用环境中。如图1所示，计算机设备110可以通过网络与数据采集设备120进行通信，数据采集设备120可以采集包含人脸图像在内的图像数据或视频数据，并将采集到的图像数据或视频数据发送至计算机设备110上，计算机设备110可以对图像数据或视频数据进行一系列的处理，得到图像数据或视频数据中的人脸图像的深度伪造检测结果。在上述场景中，可能会出现用动态的图像替代真实的人进行人脸识别的深度伪造情况，针对这类深度伪造情形，本申请可以通过对图像数据或视频数据中的人脸图像进行深度伪造检测的方法，来达到对人脸图像的真伪进行识别的目的。其中，计算机设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备、服务器或者是多个服务器组成的服务器集群等。数据采集设备可以具有摄像或摄影功能的终端设备，终端设备的形状、设置方式和尺寸不限。

在一个实施例中，如图2所示，提供了一种深度伪造检测方法，以该方法应用于图1中的计算机设备110为例进行说明，包括以下步骤：

201、获取待识别的人脸图像，并对人脸图像进行特征提取，得到第一特征图。

其中，人脸图像指的是包含有人脸区域的图像。具体的，计算机设备可以通过数据采集设备、人脸图像数据库或网络等各类途径获取到待识别的人脸图像，然后通过预先设定的图片特征提取方法对人脸图像中的局部特征进行提取，得到第一特征图，其中，第一特征图指的是由局部特征组成的多维特征矩阵。

202、对第一特征图进行格式转换处理，得到第二特征图。

其中，第二特征图包括多个局部块特征，局部块特征也称局部图像特征，指的是图像特征的局部表达，反映了图像上具有的局部特性，可以适合于对图像进行匹配、检索等应用。具体的，通过预定的格式转换操作，即可将第一特征图转换为第二特征图，其中，第二特征图指的是由局部块特征组成的二维特征矩阵。在本实施例中，可以通过矩阵变换的方式将第一特征图转换为第二特征图。

203、获取多个局部块特征对应的位置权重信息，并根据多个局部块特征对应的位置权重信息，对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图。

具体的，在图像数据中，局部块与局部块之间通常具有一定的位置关系，利用这种位置关系，即可预先训练出每个局部块特征对应的位置权重信息。进一步的，通过对局部块特征与局部块特征对应的位置权重信息进行融合，并对融合后的特征进行注意力增强处理，可以提取出局部块与局部块之间的全局相关性特征，并得到第三特征图。

204、对第三特征图进行分类处理，得到人脸图像的检测结果。

具体的，通过对第三特征图进行分类处理，可以得到人脸图像的检测结果，其中，图像分类处理可以借用一些预先训练的模型或算法来实现。在本实施例中，由于第三特征包含了局部块与局部块之间的全局相关性特征，因此，通过对第三特征图中的全局相关性特征进行分类，可以识别出各个局部块特征中的目标局部块特征，进一步的，通过对目标局部块特征进行反推，可以寻找到人脸图像中的伪造特征，从而达到对人脸图像进行深度伪造检测的目的。

本实施例提供的深度伪造检测方法，首先对人脸图像进行特征提取，然后将提取出的特征转换为包含有多个局部块特征的第二特征图，进而获取多个局部块特征对应的位置权重信息，并根据位置权重信息对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图，最后对第三特征图进行分类处理，得到人脸图像的检测结果。上述方法通过将人脸图像中的高层特征转换为便于识别的局部块特征，并通过注意力增强处理提取出多个局部块特征的全局相关性特征，有效的加强了对人脸区域中伪造区域的关注度，从而提高了深度伪造检测的准确性。

在一个实施例中，步骤201可以通过以下方法实现：通过预训练的卷积神经网络(Convolutional Neural Networks，CNN)对人脸图像进行特征提取，得到第一特征图。在本实施例中，第一特征图共包含三个维度的特征，其中，三个维度分别为第一特征图的高、宽和通道数量。本实施例通过卷积神经网络对人脸图像进行高层特征的提取，可以加强对人脸图像中局部特征的提取，从而提高对人脸图像进行深度伪造检测的准确性。

在一个实施例中，步骤202可以通过以下方法实现：将第一特征图从三维特征矩阵转换为二维特征矩阵，得到第二特征图。在本实施例中，第二特征图共包含两个维度的特征，其中，两个维度分别为第二特征图的局部块特征数量和特征长度，其中，第二特征图的局部块特征数为第一特征图的长和宽的乘积，第二特征图的特征长度为第一特征图的通道数量。本实施例通过将第一特征图的第一维度的特征和第二维度的特征合并为第二特征图的同一个维度上的特征，可以将人脸图像的局部特征转换为局部块特征，并将局部块特征抽象为时序特征进行处理，从而便于后续步骤对转换后的特征进行注意力增强处理，以识别出各个局部块特征中的目标局部块特征，并将其对应到寻找人脸图像中的伪造特征上。

在一个实施例中，步骤203可以通过以下方法实现：首先根据多个局部块特征的位置权重信息，为每个局部块特征设置一个位置编码特征，其中，位置编码特征为一个预设长度的特征向量，然后分别对每个局部块特征和每个局部块特征对应的位置编码特征进行拼接，得到第二特征图的多个级联特征，进而在多个级联特征的起始位置处设置一个标志位特征，其中，标志位特征的长度与级联特征的长度相等，最后对第二特征图的标志位特征和各个级联特征进行注意力增强处理，得到第三特征图。本实施例通过为每个局部块特征设置一个位置编码特征，并将局部块特征和位置编码特征拼接为级联特征，以及在多个级联特征的起始位置处设置一个标志位特征，最后对多个级联特征和标志位特征进行注意力处理，可以提取出各个局部块特征的全局相关性特征，从而达到对人脸图像中的伪造区域进行增强的目的，有效的提高了深度伪造检测的准确度。

在一个实施例中，步骤203对各个局部块特征进行注意力增强处理的步骤可以通过以下方法实现：首先将第二特征图的标志位特征和各个级联特征输入到预训练的全连接层中，得到查询特征向量、属性特征向量和内容特征向量，然后对查询特征向量和转置后的属性特征向量的乘积进行归一化处理，得到注意力图，最后将注意力图和内容特征向量相乘，得到第三特征图。具体的，对局部块特征进行注意力增强处理的计算公式如下：

其中，Q是查询特征向量，K是属性特征向量，V是内容特征向量。在本实施例中，假设经过位置权重信息融合后的第二特征图是一个(n+1)*(c+c’)的特征向量，那么，softmax(QKT/sqrt(dk))就是一个(n+1)*(n+1)的特征向量，其含义是(n+1)个局部块特征之间的相关性，通过将注意力图与V进行矩阵乘法，即可以得到一个(n+1)*(c+c’)的向量，用于后续的分类处理。具体的，根据矩阵乘法计算原理，注意力图的第i行与V的第j列进行加权求和可以得到(i，j)位置的值，这就相当于V的第j列的n+1个时序进行了不同权重加权，即对不同的局部块的侧重程度不同，由于人脸图像中的伪造区域的权重比较大，因此上述方法可以加强对伪造区域的关注度。本实施例通过将第二特征图的标志位特征和各个级联特征转换为查询特征向量、属性特征向量和内容特征向量，并对查询特征向量和转置后的属性特征向量的乘积进行归一化处理，可以得到各个局部块之间的全局联系特征图，进一步的，通过将全局联系特征图与内容特征向量相乘，可以对局部块中的目标块形成加强作用，最终达到对人脸图像中的伪造区域进行识别的目的。

在一个实施例中，步骤204可以通过以下方法实现：首先将第三特征图输入到预训练的多层感知器(MLP，Multilayer Perceptron)中，得到人脸图像的深度伪造概率值，然后将人脸图像的深度伪造概率值与预设的概率阈值进行比较，最后根据比较结果得到人脸图像的检测结果，即对于深度伪造概率值大于预设概率阈值的人脸图像，即认为是经过深度伪造技术形成的，以此达到深度伪造检测的目的。本实施例通过将具有全局关联性特征的第三特征图输入到多层感知器中，可以得到更为准确的检测结果，进一步提高了伪造检测的准确性。

在一个实施例中，在步骤201之前，深度伪造检测还可以包括以下步骤：首先获取初始的图像数据或获取初始的视频数据，然后通过人脸识别算法识别出图像数据中的人脸区域，并对人脸区域进行截取操作，得到待识别的人脸图像，或通过人脸识别算法识别出视频数据中的每帧图像中的人脸区域，并对人脸区域进行截取操作，得到待识别的人脸图像。本实施例通过人脸识别算法从原始图像或原始视频中提取出人脸区域进行局部图像检测，可以提高深度伪造检测的准确性，并减低图像处理的计算量，从而提高对人脸图像进行深度伪造检测的效率。

进一步的，作为上述各个实施例具体实施方式的细化和扩展，为了完整说明本实施例的实施过程，下面通过具体的实施例对本申请提供的深度伪造检测方法做进一步说明。

本实施例提供的深度伪造检测方法通过将自然语言处理领域的注意力机制模型transformer应用在深度伪造图片或视频的检测上，并结合卷积神经网络CNN对人脸图像的局部特征进行提取，可以有效的提高深度伪造检测的准确率。具体的，本方法首先对人脸图像用CNN进行局部提取特征，然后在特征层面应用transforme，将每个空间特征抽象成时间序列，学习其注意力机制图，并侧重对伪造区域进行学习，最终得到人脸图像的深度的伪造检测结果。

在本实施例中，主要包含两个模块，第一个模块是通过CNN对人脸图像的高层特征进行提取，第二个模块是利用transformer对高层特征进行全局相关性建模。具体实施方式包括以下步骤：

步骤1，训练集数据准备。收集大量的真实人脸图片和伪造人脸图片作为训练集，真实人脸数据的来源非常广泛，可以来自于各种开源人脸数据集，也可以在互联网上收集，伪造人脸图片则可以来自于开源数据集、互联网以及自行利用算法伪造生成。

步骤2，模型构建。模型的两个核心模块，分别是CNN局部特征提取模块、transformer全部相关性特征提取模块。算法流程图如图3所示。

首先，输入的人脸图像会经过CNN进行局部高级特征的提取，一般来讲，输入的人脸图像是H*W*3的数据格式，其中，H和W分别表示输入人脸图像的高和宽，3表示的图像的三个颜色通道，输入图像记为X。X经过CNN提取特征后，得到的特征图的数据格式是h*w*c，h和w分别表示特征图的高和宽，c表示的是特征图的通道数量，该特征记为F1(即第一特征图)。为了使特征F1可以通过transformer进行进一步处理，可以对该特征进行格式转换操作，转换后的特征记为F2(即第二特征图)，F2＝reshape(F1)，其中，F2的特征格式为n*c，n＝h*w，在自然语言处理领域，n相当于是时序长度，而在视觉领域，n表示的局部块的个数。随后，可以采用transformer对特征F2进行进一步处理，得到分类概率，本方法就是利用transformer对特征F2中的所有局部块进行全局相关性特征提取。

进一步的，transformer的示意图如图4所示，对于输入的数据格式为n*c的特征F2，首先会对每一个局部块增加位置编码，每一个块的位置编码随机初始化为一个c’的向量，位置编码在以后的训练过程中通过梯度回传进行优化，每一个块位置编码向量和特征会级联在一起构成长度为(c+c’)的向量，位置编码的作用是构建模局部块与局部块之间的相对位置关系。同时，为了实现后续分类的功能，增加了一个0号位置的位置编码和特征，随机初始化成长度为(c+c’)的向量即可。经过上述的处理后，会得到(n+1)*(c+c’)的特征向量，处理后的特征F2的计算公式如下：

进一步的，处理后的特征F2经过全连接层会得到3个特征，Q、K和V，其中，Q是查询特征向量，K是属性特征向量，V是内容特征向量，Q、K、V的特征大小均为(n+1)*(c+c’)，QK^T的大小为(n+1)*(n+1)，d_k为归一化因子，作用是避免矩阵乘积过大，一般d_k可以选择为(c+c’)，之后经过softmax函数，得到的便是局部块与局部块之间的全局联系特征图，然后乘以V，得到的是(n+1)*(c+c’)的向量，意义是对特征V按照全局联系特征图对特定块会有加强作用。在本实施例中，Trandformer模型自学习出来的结果对伪造区域的权重比较大，因此可以加强对伪造区域的关注度。

在transformer模块中，会有多个上述的计算级联，组成图4所示的transformerencoder(即注意力机制模型的编码器)。transformer encoder的输出依然是一个(n+1)*(c+c’)的向量，记为特征F3(即第三特征图)，取特征F3第0号块的向量，其长度为(c+c’)，经过多层感知器后，即可得到分类概率值，通过将分类概率值与预设的阈值进行比对，即可得到人脸图像的深度伪造检测结果。

本实施例提供的深度伪造检测方法，通过利用CNN对人脸图像中的特征进行提取，可以有效的加强对人脸图像中局部特征的学习和提取，通过利用transformer对人脸图像中的全局相关性特征进行学习，可以进一步加强对人脸图像中伪造区域的关注度，从而提高对人脸图像进行深度伪造检测的准确性。

进一步的，作为图1至图4所示方法的具体实现，本实施例提供了一种深度伪造检测装置，如图5所示，该装置包括：输入输出模块31和处理模块32。

输入输出模块31，可用于获取待识别的人脸图像；

处理模块32，可用于对人脸图像进行特征提取，得到第一特征图，并对第一特征图进行格式转换处理，得到第二特征图，其中，第二特征图包括多个局部块特征；

输入输出模块31，还可用于获取多个局部块特征对应的位置权重信息；

处理模块32，还可用于根据多个局部块特征对应的位置权重信息，对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图，以及对第三特征图进行分类处理，得到人脸图像的检测结果，其中，检测结果用于指示第三特征图中的各个局部块特征中的目标局部块特征，目标局部块特征对应人脸图像中的伪造特征；

输入输出模块31，还可用于对人脸图像的检测结果进行输出。

在具体的应用场景中，所述处理模块32，具体可用于通过预训练的卷积神经网络，对人脸图像进行特征提取，得到第一特征图，其中，第一特征图包含三个维度的特征，第一特征图的三个维度分别为第一特征图的高、宽和通道数量。

在具体的应用场景中，所述处理模块32，具体可用于将第一特征图从三维特征矩阵转换为二维特征矩阵，得到第二特征图，其中，第二特征图包含两个维度的特征，第二特征图的两个维度分别为第二特征图的局部块特征数量和特征长度。

在具体的应用场景中，所述处理模块32，具体可用于根据多个局部块特征的位置权重信息，为每个局部块特征设置一个位置编码特征，其中，位置编码特征为一个预设长度的特征向量；分别对每个局部块特征和每个局部块特征对应的位置编码特征进行拼接，得到第二特征图的多个级联特征；在多个级联特征的起始位置处设置一个标志位特征，其中，标志位特征的长度与级联特征的长度相等；对第二特征图的标志位特征和各个级联特征进行注意力增强处理，得到第三特征图。

在具体的应用场景中，所述处理模块32，具体可用于将第二特征图的标志位特征和各个级联特征输入到预训练的全连接层中，得到查询特征向量、属性特征向量和内容特征向量；对查询特征向量和转置后的属性特征向量的乘积进行归一化处理，得到注意力图；将注意力图和内容特征向量相乘，得到第三特征图。

在具体的应用场景中，所述处理模块32，具体可用于将第三特征图输入到预训练的多层感知器中，得到人脸图像的深度伪造概率值；将人脸图像的深度伪造概率值与预设的概率阈值进行比较，根据比较结果得到人脸图像的检测结果。

在具体的应用场景中，所述输入输出模块31，还可用于获取初始的图像数据或获取初始的视频数据；处理模块32，还可用于通过人脸识别算法识别出图像数据中的人脸区域，对人脸区域进行截取操作，得到待识别的人脸图像；或通过人脸识别算法识别出视频数据中的每帧图像中的人脸区域，对人脸区域进行截取操作，得到待识别的人脸图像。

需要说明的是，本实施例提供的一种深度伪造检测装置所涉及各功能单元的其它相应描述，可以参考图1至图4中的对应描述，在此不再赘述。

基于上述如图1至图4所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1至图4所示的深度伪造检测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1至图4所示的方法，以及图5所示的深度伪造检测装置实施例，为了实现上述目的，如图6所示，本实施例还提供了一种深度伪造检测的计算机设备，具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序和操作***；处理器，用于执行计算机程序以实现上述如图1至图4所示的方法。

可选的，该计算机设备还可以包括内存储器、通信接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块、显示屏(Display)、输入装置比如键盘(Keyboard)等，可选的，通信接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种深度伪造检测的计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作***、网络通信模块。操作***是管理上述计算机设备硬件和待识别软件资源的程序，支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理计算机设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，首先对人脸图像进行特征提取，然后将提取出的特征转换为包含有多个局部块特征的第二特征图，进而获取多个局部块特征对应的位置权重信息，并根据位置权重信息对第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图，最后对第三特征图进行分类处理，得到人脸图像的检测结果，以利用检测结果中的目标局部块特征指示出人脸图像中的伪造特征。与现有技术相比，可有效的加强对人脸区域中伪造区域的关注度，从而提高深度伪造检测的准确性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种深度伪造检测方法，其特征在于，所述方法包括：

获取待识别的人脸图像，并对所述人脸图像进行特征提取，得到第一特征图；

对所述第一特征图进行格式转换处理，得到第二特征图，其中，所述第二特征图包括多个局部块特征；

获取所述多个局部块特征对应的位置权重信息，并根据所述多个局部块特征对应的位置权重信息，对所述第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图；

对所述第三特征图进行分类处理，得到所述人脸图像的检测结果，其中，所述检测结果用于指示所述第三特征图中的各个局部块特征中的目标局部块特征，所述目标局部块特征对应所述人脸图像中的伪造特征；

其中，所述根据所述多个局部块特征对应的位置权重信息，对所述第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图，包括：

根据所述多个局部块特征的位置权重信息，为每个所述局部块特征设置一个位置编码特征，其中，所述位置编码特征为一个预设长度的特征向量；分别对每个所述局部块特征和每个所述局部块特征对应的位置编码特征进行拼接，得到所述第二特征图的多个级联特征；在所述多个级联特征的起始位置处设置一个标志位特征，其中，所述标志位特征的长度与所述级联特征的长度相等；对所述第二特征图的标志位特征和各个级联特征进行注意力增强处理，得到第三特征图。

2.根据权利要求1所述的方法，其特征在于，所述对所述人脸图像进行特征提取，得到第一特征图，包括：

通过预训练的卷积神经网络，对所述人脸图像进行特征提取，得到第一特征图，其中，所述第一特征图包含三个维度的特征，所述第一特征图的三个维度分别为所述第一特征图的高、宽和通道数量。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一特征图进行格式转换处理，得到第二特征图，包括：

将所述第一特征图从三维特征矩阵转换为二维特征矩阵，得到第二特征图，其中，所述第二特征图包含两个维度的特征，所述第二特征图的两个维度分别为所述第二特征图的局部块特征数量和特征长度。

4.根据权利要求1所述的方法，其特征在于，所述对所述第二特征图的标志位特征和各个级联特征进行注意力增强处理，得到第三特征图，包括：

将所述第二特征图的标志位特征和各个级联特征输入到预训练的全连接层中，得到查询特征向量、属性特征向量和内容特征向量；

对所述查询特征向量和转置后的所述属性特征向量的乘积进行归一化处理，得到注意力图；

将所述注意力图和所述内容特征向量相乘，得到所述第三特征图。

5.根据权利要求1所述的方法，其特征在于，所述对所述第三特征图进行分类处理，得到所述人脸图像的检测结果，包括：

将所述第三特征图输入到预训练的多层感知器中，得到所述人脸图像的深度伪造概率值；

将所述人脸图像的深度伪造概率值与预设的概率阈值进行比较，根据比较结果得到所述人脸图像的检测结果。

6.根据权利要求1所述的方法，其特征在于，所述获取待识别的人脸图像，包括：

获取初始的图像数据，并通过人脸识别算法识别出所述图像数据中的人脸区域，对所述人脸区域进行截取操作，得到所述待识别的人脸图像；或

获取初始的视频数据，并通过人脸识别算法识别出所述视频数据中的每帧图像中的人脸区域，对所述人脸区域进行截取操作，得到所述待识别的人脸图像。

7.一种深度伪造检测装置，其特征在于，所述装置包括：

输入输出模块，用于获取待识别的人脸图像；

处理模块，用于对所述人脸图像进行特征提取，得到第一特征图，并对所述第一特征图进行格式转换处理，得到第二特征图，其中，所述第二特征图包括多个局部块特征；

所述输入输出模块，用于获取所述多个局部块特征对应的位置权重信息；

所述处理模块，还用于根据所述多个局部块特征对应的位置权重信息，对所述第二特征图的多个局部块特征进行注意力增强处理，得到第三特征图，以及对所述第三特征图进行分类处理，得到所述人脸图像的检测结果，其中，所述检测结果用于指示所述第三特征图中的各个局部块特征中的目标局部块特征，所述目标局部块特征对应所述人脸图像中的伪造特征；

所述输入输出模块，还用于对所述人脸图像的检测结果进行输出；

其中，所述处理模块，具体用于根据所述多个局部块特征的位置权重信息，为每个所述局部块特征设置一个位置编码特征，其中，所述位置编码特征为一个预设长度的特征向量；分别对每个所述局部块特征和每个所述局部块特征对应的位置编码特征进行拼接，得到所述第二特征图的多个级联特征；在所述多个级联特征的起始位置处设置一个标志位特征，其中，所述标志位特征的长度与所述级联特征的长度相等；对所述第二特征图的标志位特征和各个级联特征进行注意力增强处理，得到第三特征图。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。