CN110516575A

CN110516575A - 基于残差域富模型的gan生成图片检测方法及***

Info

Publication number: CN110516575A
Application number: CN201910766073.4A
Authority: CN
Inventors: 蒋兴浩; 孙锬锋; 陈卓; 许可
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-29

Abstract

本发明提供了一种基于残差域富模型的GAN生成图片检测方法及***，包括：原始图像处理步骤:利用数字图像处理技术对原始图像进行识别和裁剪，识别人脸并裁剪出人脸部分的图像；获取原始图像残差信息步骤:利用数字图像处理技术对原始图像进行预处理，提取出原始图像的残差信息；卷积神经网络处理步骤:将原始图像的残差图像输入设定的卷积神经网络，卷积层在每个激活函数前加入BN层；全局平均池化层处理步骤：使用全局平均池化层代替全连接层；样本训练卷积神经网络处理步骤：利用数据集的样本训练卷积神经网络，得到图片分类器，获取判断结果信息。本发明设计预处理高通滤波器，并通过改进的卷积神经网络，最终达到了99％的准确率。

Description

基于残差域富模型的GAN生成图片检测方法及***

技术领域

本发明涉及数字图像处理技术及人工智能交叉领域，具体地，涉及基于残差域富模型的GAN生成图片检测方法及***。

背景技术

2017年，NVIDIA推出了ProGAN,该模型突破了之前生成对抗神经网络(简称GAN)的极限，生成了高分辨率的合成人脸图片(1024×1024)。该模型所生成的大部分图片已经具有了很高的欺骗性，但细节方面仍不理想，人们通过肉眼仔细观察还是能够分辨出图片的真伪。在此基础之上，NVIDIA推出了新的生成对抗神经网络StyleGAN，其合成的人脸更进一步能够以假乱真，连细节方面也得到了完善。来自Uber的软件工程师Philip Wang利用StyleGAN做了一个网站，每次刷新都会生成一张逼真的假脸，其效果在社交媒体上引起了轰动。随着计算机视觉和图像处理技术取得最新进展，现在我们已经能做到在图像中合成极其逼真的人脸。这项技术的背后是无限的应用空间，但其中的某些滥用行为却为我们拉响了安全警报，因此开发一个可靠的虚假图像检测器迫在眉睫。

目前传统图像取证(包括重拍摄图像取证、CG图像取证)领域已经有了很多研究，但对于AI生成图像取证的研究还比较匮乏。

专利文献CN101739555B公开了一种假脸检测方法及***，该技术通过将人脸图像的表示向量映射到判别子空间，获得特征向量，所述表示向量为针对所述人脸图像进行特征提取获得，判别子空间是依据包括真假脸的人脸样本的人脸特征建立的；将所述特征向量输入到所述假脸模型中，输出检测结果。该发明目的在于剔除经过人脸检测算法检测出的大量假脸，特点是对于经过修改的人脸有着较好的检测性能，缺点是该技术未针对最新的GAN网络，由噪声直接生成的假脸进行检测，无法达到有效的检测结果。

专利文献CN108549854B公开了一种人脸活体检测方法，该发明公开一种基于局部二值卷积神经网络模型的人脸活体检测方法，特点是不需要进行人机交互，也不需要安装其他摄像头，仅需要普通可见光摄像头，并且网络训练快，网络参数少，便于在嵌入式设备上移植和应用。该方法只是针对于视频中较低分辨率人脸进行检测，未对高分辨率的人脸图像进行识别检测。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于残差域富模型的GAN生成图片检测方法及***。

根据本发明提供的一种基于残差域富模型的GAN生成图片检测方法，包括以下步骤：原始图像处理步骤:利用数字图像处理技术对原始图像进行识别和裁剪，识别人脸并裁剪出人脸部分的图像，获取待处理原始图像信息；获取原始图像残差信息步骤:根据待处理原始图像信息，利用数字图像处理技术对原始图像进行预处理，提取出原始图像的残差信息，获取原始图像残差信息；卷积神经网络处理步骤:根据原始图像残差信息，将原始图像的残差图像输入设定的卷积神经网络，卷积层在每个激活函数前加入BN层，获取待全局平均池化层处理信息；全局平均池化层处理步骤：根据待全局平均池化层处理信息，使用全局平均池化层代替全连接层，将每张特征图都整合成为一个输出，获取待样本训练卷积神经网络处理信息；样本训练卷积神经网络处理步骤：根据待样本训练卷积神经网络处理信息，利用数据集的样本训练卷积神经网络，得到图片分类器，获取判断结果信息。

优选地，所述获取原始图像残差信息步骤包括：分为三通道步骤：将原始图片分为RGB三通道，获取待高通滤波器处理信息；经过高通滤波器步骤：根据待高通滤波器处理信息，将三个通道分别经过高通滤波器提取残差信息,所用高通滤波器如(1)所示；

所述原始图像残差信息包括：三张残差图像信息；合成图像步骤：根据三张残差图像信息，将三张残差图像合成一张残差图像。

优选地，卷积神经网络处理步骤包括：选择卷积核大小步骤：卷积层使用3x3大小的卷积核，所述3x3大小的卷积核能够影响边缘检测器的性能；

激活函数前使用BN层步骤：在激活函数前使用BN层，所述BN层能够将每一个输入的特征图进行归一化到零均值以及单位方差，使得非线性激活层的输入值落在拟线性的区域；

所述卷积层的数量为5层。

优选地，全局平均池化层处理步骤包括：

全局平均池化层代替全连接层步骤：使用全局平均池化层代替全连接层，全局平均池化公式如(2)所示，将池化区域扩大到整张特征图，将每张特征图都整合成为一个输出，而且采用均值池化操作；

式中的R_i代表着特征图的第i个池化区域，而α_j是该区域的第j个元素，pooling(R_i)代表池化操作最终的输出结果；

样本训练卷积神经网络处理步骤包括：

获取图像分类器步骤：使用adam算法进行参数更新，并将L2正则化系数设置为1×10^-4。训练20轮后，获取图像分类器；

其中L2正则化代表：

优选地，原始图像处理步骤包括：

选取样本中的人脸图像步骤：选取一种或者多种图像背景/图像形态的人脸图像，获取待处理原始图像信息；

所述图像背景包括以下任一种或者任多种图像背景：

-广告背景；

-地面背景；

-建筑背景；

-人物背景；

所述图像形态包括以下任一种或者任多种图像形态：

-肤色形态；

-人种形态；

-表情形态；

-面部装饰形态。

根据本发明提供的一种基于残差域富模型的GAN生成图片检测***，包括以下模块：原始图像处理模块:利用数字图像处理技术对原始图像进行识别和裁剪，识别人脸并裁剪出人脸部分的图像，获取待处理原始图像信息；获取原始图像残差信息模块:根据待处理原始图像信息，利用数字图像处理技术对原始图像进行预处理，提取出原始图像的残差信息，获取原始图像残差信息；卷积神经网络处理模块:根据原始图像残差信息，将原始图像的残差图像输入设定的卷积神经网络，卷积层在每个激活函数前加入BN层，获取待全局平均池化层处理信息；全局平均池化层处理模块：根据待全局平均池化层处理信息，使用全局平均池化层代替全连接层，将每张特征图都整合成为一个输出，获取待样本训练卷积神经网络处理信息；样本训练卷积神经网络处理模块：根据待样本训练卷积神经网络处理信息，利用数据集的样本训练卷积神经网络，得到图片分类器，获取判断结果信息。

优选地，所述获取原始图像残差信息模块包括：

分为三通道模块：将原始图片分为RGB三通道，获取待高通滤波器处理信息；

经过高通滤波器模块：根据待高通滤波器处理信息，将三个通道分别经过高通滤波器提取残差信息,所用高通滤波器如(1)所示；

所述原始图像残差信息包括：三张残差图像信息；

合成图像模块：根据三张残差图像信息，将三张残差图像合成一张残差图像。

优选地，卷积神经网络处理模块包括：

选择卷积核大小模块：卷积层使用3x3大小的卷积核，所述3x3大小的卷积核能够影响边缘检测器的性能；

激活函数前使用BN层模块：在激活函数前使用BN层，所述BN层能够将每一个输入的特征图进行归一化到零均值以及单位方差，使得非线性激活层的输入值落在拟线性的区域；

所述卷积层的数量为5层。

优选地，全局平均池化层处理模块包括：

全局平均池化层代替全连接层模块：使用全局平均池化层代替全连接层，全局平均池化公式如(2)所示，将池化区域扩大到整张特征图，将每张特征图都整合成为一个输出，而且采用均值池化操作；

样本训练卷积神经网络处理模块包括：

获取图像分类器模块：使用adam算法进行参数更新，并将L2正则化系数设置为1×10-4。训练20轮后，获取图像分类器；

其中L2正则化代表：

优选地，原始图像处理模块包括：

选取样本中的人脸图像模块：选取一种或者多种图像背景/图像形态的人脸图像，获取待处理原始图像信息。

所述图像背景包括以下任一种或者任多种图像背景：

-广告背景；

-地面背景；

-建筑背景；

-人物背景；

所述图像形态包括以下任一种或者任多种图像形态：

-肤色形态；

-人种形态；

-表情形态；

-面部装饰形态。

与现有技术相比，本发明具有如下的有益效果：

1、本发明针对于目前最新颖的生成对抗网络StyleGAN，率先对其所生成的图像进行检测，提出了一种基于改进CNN的检测框架，并达到了99％的准确率，可以准确地区分自然图像和StyleGAN的生成图像；

2、本发明对于提取图像残差信息的高通滤波器进行了深入研究，并通过实验多种方向性与非方向性的线性滤波器以及非线性滤波器，得出可行的、效果好的技术方案；

3、本发明针对于StyleGAN，利用“非线性滤波器提取的残差信息对结果的影响最小，其次是方向性线性滤波器，而非方向性线性滤波器能够有效的提取出StyleGAN的残留痕迹”，提高算法的准确性；

4、本发明优化了卷积神经网络的设计，本发明所设计的卷积神经网络增加到了五层，能够更好的适应现如今高分辨率高质量的AI生成假脸，达到更高的检测准确率；

5、本发明为了避免过拟合以及全连接层带来的训练参数过多问题，使用了全局平均池化层代替全连接层，有效地避免了过拟合；

6、本发明针对“全局平均池化层会导致算法的收敛速度下降”的问题，采用了在卷积层每个激活函数前加入BN层来弥补速度损失；

7、本发明在保证了算法训练和检测的速度与莫华的算法相似时，算法的准确率更高，同时对于高分辨率的图片适应性更好。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程示意图。

图2为本发明的框图示意图。

图3为本发明实施例中算法的框架原理示意图。

图4为本发明实施例中卷积神经网络结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1、图2、图3、图4所示，根据本发明提供的一种基于残差域富模型的GAN生成图片检测方法，包括以下步骤：原始图像处理步骤:利用数字图像处理技术对原始图像进行识别和裁剪，识别人脸并裁剪出人脸部分的图像，获取待处理原始图像信息；获取原始图像残差信息步骤:根据待处理原始图像信息，利用数字图像处理技术对原始图像进行预处理，提取出原始图像的残差信息，获取原始图像残差信息；卷积神经网络处理步骤:根据原始图像残差信息，将原始图像的残差图像输入设定的卷积神经网络，卷积层在每个激活函数前加入BN层，获取待全局平均池化层处理信息；全局平均池化层处理步骤：根据待全局平均池化层处理信息，使用全局平均池化层代替全连接层，将每张特征图都整合成为一个输出，获取待样本训练卷积神经网络处理信息；样本训练卷积神经网络处理步骤：根据待样本训练卷积神经网络处理信息，利用数据集的样本训练卷积神经网络，得到图片分类器，获取判断结果信息。本发明涉及一种基于残差域富模型的GAN生成图片检测方法及***，率先对于目前最新颖的生成对抗网络StyleGAN的生成图像进行识别。该方法首先对输入图片进行预处理，通过将原始图片分为三个颜色通道，分别经过一个高通滤波器得到原始图片的残差信息，再将得到的残差图像输入一个改进的卷积神经网络，最终得到判断结果，用以区分自然图像和StyleGAN的生成图像，称为ResidualCNN。

本发明率先对StyleGAN生成的伪造图像进行检测，针对于StyleGAN所生成的假脸图像达到了99％的准确率，可以准确地区分自然图像和StyleGAN的生成图像。使用全局平均池化层代替全连接层，避免了全连接层训练参数过多带来的过拟合和训练速度减慢问题，同时在每个卷积层中的激活函数前使用BN层来弥补全局平均池化层导致的网络收敛速度变慢的问题，相较同类模型有着更快的训练速度同时分类的准确率更高。

优选地，卷积神经网络处理步骤包括：选择卷积核大小步骤：卷积层使用3x3大小的卷积核，所述3x3大小的卷积核能够影响边缘检测器的性能；即尺寸越大，检测器对噪声的敏感度越低，但是边缘检测的定位误差也将略有增加。激活函数前使用BN层步骤：在激活函数前使用BN层，所述BN层能够将每一个输入的特征图进行归一化到零均值以及单位方差，使得非线性激活层的输入值落在拟线性的区域；这样可以有效地防止梯度的方向传播不会陷入到局部最优解。所述卷积层的数量为5层。

优选地，全局平均池化层处理步骤包括：全局平均池化层代替全连接层步骤：使用全局平均池化层代替全连接层，全局平均池化公式如(2)所示，将池化区域扩大到整张特征图，将每张特征图都整合成为一个输出，而且采用均值池化操作；可以省去全连接层所需的参数以减小网络，避免了过拟合。此外全局平均池化是对于空间信息进行求和，因此它所得到的结果对于输入的空间转换有着更好的鲁棒性。

样本训练卷积神经网络处理步骤包括：获取图像分类器步骤：使用adam算法进行参数更新，并将L2正则化系数设置为1×10^-4。训练20轮后，获取图像分类器；

其中，L2正则化代表：

优选地，原始图像处理步骤包括：

所述图像背景包括以下任一种或者任多种图像背景：

-广告背景；

-地面背景；

-建筑背景；

-人物背景；

所述图像形态包括以下任一种或者任多种图像形态：

-肤色形态；

-人种形态；

-表情形态；

-面部装饰形态。

优选地，所述获取原始图像残差信息模块包括：

所述原始图像残差信息包括：三张残差图像信息；

优选地，卷积神经网络处理模块包括：

选择卷积核大小模块：卷积层使用3x3大小的卷积核，所述3x3大小的卷积核能够影响边缘检测器的性能；即尺寸越大，检测器对噪声的敏感度越低，但是边缘检测的定位误差也将略有增加；

激活函数前使用BN层模块：在激活函数前使用BN层，所述BN层能够将每一个输入的特征图进行归一化到零均值以及单位方差，使得非线性激活层的输入值落在拟线性的区域；这样可以有效地防止梯度的方向传播不会陷入到局部最优解。

所述卷积层的数量为5层。

优选地，全局平均池化层处理模块包括：

全局平均池化层代替全连接层模块：使用全局平均池化层代替全连接层，全局平均池化公式如(2)所示，将池化区域扩大到整张特征图，将每张特征图都整合成为一个输出，而且采用均值池化操作；可以省去全连接层所需的参数以减小网络，避免了过拟合。此外全局平均池化是对于空间信息进行求和，因此它所得到的结果对于输入的空间转换有着更好的鲁棒性。

样本训练卷积神经网络处理模块包括：

获取图像分类器模块：使用adam算法进行参数更新，并将L2正则化系数设置为1×10^-4。训练20轮后，获取图像分类器；

其中L2正则化代表：

优选地，原始图像处理模块包括：

所述图像背景包括以下任一种或者任多种图像背景：

-广告背景；

-地面背景；

-建筑背景；

-人物背景；

所述图像形态包括以下任一种或者任多种图像形态：

-肤色形态；

-人种形态；

-表情形态；

-面部装饰形态。

本发明针对于目前最新颖的生成对抗网络StyleGAN，率先对其所生成的图像进行检测，提出了一种基于改进CNN的检测框架，并达到了99％的准确率；本发明对于提取图像残差信息的高通滤波器进行了深入研究，并通过实验多种方向性与非方向性的线性滤波器以及非线性滤波器，得出可行的、效果好的技术方案；本发明针对于StyleGAN，利用“非线性滤波器提取的残差信息对结果的影响最小，其次是方向性线性滤波器，而非方向性线性滤波器能够有效的提取出StyleGAN的残留痕迹”，提高算法的准确性；本发明优化了卷积神经网络的设计，本发明所设计的卷积神经网络增加到了五层，能够更好的适应现如今高分辨率高质量的AI生成假脸，达到更高的检测准确率；本发明为了避免过拟合以及全连接层带来的训练参数过多问题，使用了全局平均池化层代替全连接层，有效地避免了过拟合；本发明针对“全局平均池化层会导致算法的收敛速度下降”的问题，采用了在卷积层每个激活函数前加入BN层来弥补速度损失；本发明在保证了算法训练和检测的速度与莫华的算法相似时，算法的准确率更高，同时对于高分辨率的图片适应性更好。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于残差域富模型的GAN生成图片检测方法，其特征在于，包括以下步骤：

原始图像处理步骤:利用数字图像处理技术对原始图像进行识别和裁剪，识别人脸并裁剪出人脸部分的图像，获取待处理原始图像信息；

获取原始图像残差信息步骤:根据待处理原始图像信息，利用数字图像处理技术对原始图像进行预处理，提取出原始图像的残差信息，获取原始图像残差信息；

卷积神经网络处理步骤:根据原始图像残差信息，将原始图像的残差图像输入设定的卷积神经网络，卷积层在每个激活函数前加入BN层，获取待全局平均池化层处理信息；

全局平均池化层处理步骤：根据待全局平均池化层处理信息，使用全局平均池化层代替全连接层，将每张特征图都整合成为一个输出，获取待样本训练卷积神经网络处理信息；

样本训练卷积神经网络处理步骤：根据待样本训练卷积神经网络处理信息，利用数据集的样本训练卷积神经网络，得到图片分类器，获取判断结果信息。

2.根据权利要求1所述的基于残差域富模型的GAN生成图片检测方法，其特征在于，所述获取原始图像残差信息步骤包括：

分为三通道步骤：将原始图片分为RGB三通道，获取待高通滤波器处理信息；

经过高通滤波器步骤：根据待高通滤波器处理信息，将三个通道分别经过高通滤波器提取残差信息,所用高通滤波器如(1)所示；

所述原始图像残差信息包括：三张残差图像信息；

合成图像步骤：根据三张残差图像信息，将三张残差图像合成一张残差图像。

3.根据权利要求1所述的基于残差域富模型的GAN生成图片检测方法，其特征在于，卷积神经网络处理步骤包括：

选择卷积核大小步骤：卷积层使用3x3大小的卷积核，所述3x3大小的卷积核能够影响边缘检测器的性能；

所述卷积层采用5层卷积层。

4.根据权利要求1所述的基于残差域富模型的GAN生成图片检测方法，其特征在于，全局平均池化层处理步骤包括：

样本训练卷积神经网络处理步骤包括：

其中L2正则化代表：

5.根据权利要求1所述的基于残差域富模型的GAN生成图片检测方法，其特征在于，原始图像处理步骤包括：

所述图像背景包括以下任一种或者任多种图像背景：

-广告背景；

-地面背景；

-建筑背景；

-人物背景；

所述图像形态包括以下任一种或者任多种图像形态：

-肤色形态；

-人种形态；

-表情形态；

-面部装饰形态。

6.一种基于残差域富模型的GAN生成图片检测***，其特征在于，包括以下模块：

原始图像处理模块:利用数字图像处理技术对原始图像进行识别和裁剪，识别人脸并裁剪出人脸部分的图像，获取待处理原始图像信息；

获取原始图像残差信息模块:根据待处理原始图像信息，利用数字图像处理技术对原始图像进行预处理，提取出原始图像的残差信息，获取原始图像残差信息；

卷积神经网络处理模块:根据原始图像残差信息，将原始图像的残差图像输入设定的卷积神经网络，卷积层在每个激活函数前加入BN层，获取待全局平均池化层处理信息；

全局平均池化层处理模块：根据待全局平均池化层处理信息，使用全局平均池化层代替全连接层，将每张特征图都整合成为一个输出，获取待样本训练卷积神经网络处理信息；

样本训练卷积神经网络处理模块：根据待样本训练卷积神经网络处理信息，利用数据集的样本训练卷积神经网络，得到图片分类器，获取判断结果信息。

7.根据权利要求6所述的基于残差域富模型的GAN生成图片检测***，其特征在于，所述获取原始图像残差信息模块包括：

所述原始图像残差信息包括：三张残差图像信息；

8.根据权利要求6所述的基于残差域富模型的GAN生成图片检测***，其特征在于，卷积神经网络处理模块包括：

所述卷积层的数量为5层。

9.根据权利要求6所述的基于残差域富模型的GAN生成图片检测***，其特征在于，全局平均池化层处理模块包括：

样本训练卷积神经网络处理模块包括：

其中L2正则化代表：

10.根据权利要求6所述的基于残差域富模型的GAN生成图片检测***，其特征在于，原始图像处理模块包括：

选取样本中的人脸图像模块：选取一种或者多种图像背景/图像形态的人脸图像，获取待处理原始图像信息；

所述图像背景包括以下任一种或者任多种图像背景：

-广告背景；

-地面背景；

-建筑背景；

-人物背景；

所述图像形态包括以下任一种或者任多种图像形态：

-肤色形态；

-人种形态；

-表情形态；

-面部装饰形态。