CN110457996B

CN110457996B - 基于vgg-11卷积神经网络的视频运动对象篡改取证方法

Info

Publication number: CN110457996B
Application number: CN201910561127.3A
Authority: CN
Inventors: 甘艳芬; 钟君柳; 杨继翔; 赖文达
Original assignee: South China Business College of Guangdong University of Foreign Studies
Current assignee: South China Business College of Guangdong University of Foreign Studies
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2023-05-02
Anticipated expiration: 2039-06-26
Also published as: CN110457996A

Abstract

本发明公开了基于VGG‑11卷积神经网络的视频运动对象篡改取证方法，包括步骤：采用聚合运算计算视频中伪造帧与未伪造帧之间的运动残差，对伪造帧和未伪造帧进行分类；基于所述运动残差，提取运动残差图特征；构建基于VGG‑11的卷积神经网络；使用所述运动残差图特征，训练所述基于VGG‑11的卷积神经网络；使用所述基于VGG‑11的卷积神经网络判定视频运动对象是否被篡改。与现有技术相比，本发明能更好地自动识别篡改视频中的伪造帧。

Description

基于VGG-11卷积神经网络的视频运动对象篡改取证方法

技术领域

本发明涉及视频篡改检测技术，尤其涉及基于VGG-11卷积神经网络的视频运动对象篡改取证方法。

背景技术

当今互联网时代，随着计算机多媒体技术的不断发展，越来越多的图像、音频、视频成为网民们共享的网络资源。尤其是数字视频，以其直观、方便、信息内容丰富而成为了网络的主要信息承载形式，也成为许多社交网络软件的重要数据来源。如有必要,这些视频文件将作为新闻、政治、保险索赔、辩护和法律审判领域许多重要事项的证据。然而功能强大的多媒体编辑工具如Adobe Photoshop,Adobe Premiere,Lightworks,Video EditMagic and Cinelerra等的广泛使用，使得一些非专业人士都能轻易的对视频内容进行修改，并且其中一些伪造视频令专家们都难辨真假。这导致人们对数字视频内容的可信性产生怀疑。因此，迫切需要有效的取证技术来验证视频内容的真实性、原创性和完整性。

数字视频篡改主要分为帧间篡改和帧内篡改两种，帧间篡改指的是以图像帧为篡改单位修改视频内容，常见的帧间篡改方式有帧删除、帧***和帧复制；帧内篡改指的是视频帧的部分区域为篡改对象对视频时间域和空间域同时进行修改的篡改方式，主要篡改方式有帧内复制-粘贴篡改、对象删除篡改和视频合成篡改。针对这两种篡改的数字视频取证技术分为主动取证和被动取证两种，主动取证指的是在待取证的数字视频中预先嵌入验证信息如数字指纹或数字水印，在取证的过程中通过验证所嵌入的验证信息是否完整来判断视频是否经过篡改。而被动取证技术,与主动取证技术相反，无需预先嵌入认证信息，主要依据数字视频本身的编码特征、统计特征等特征值的差异性，来实现对数字视频篡改的检测，这种技术应用更为广泛。随着研究的不断深入，已有许多学者提出了针对视频帧间或帧内篡改的被动取证方法。

对于帧间篡改，张伟,孙锬锋,蒋兴浩.基于P、B帧MBNV特征的视频篡改检测方法[J].信息技术,2016(141):1-4.和张雪莉,黄添强,林晶等.基于非负张量分解的视频篡改检测方法[J].网络与信息安全学报,2017(06):46-53.对基于帧间的伪造特点进行了研究；对基于帧内对象篡改的被动取证，Bagiwa M A,Wahab A W A,Idris M Y I,et al.DigitalVideo Inpainting Detection Using Correlation of Hessian Matrix[J].MalaysianJournal of Computer Science,2016,29(3):179-195、王斌,王让定,李倩,et al.基于高频分量差异度的视频对象移除簒改检测算法[J].数据通信,2017(1):23-28和Chen,Shengda,et al.Automatic Detection of Object-Based Forgery in Advanced Video[J].IEEE Transactions on Circuits&Systems for Video Technology 26.11(2016):2138-2151进行了研究。

然而，以上所述的基于目标对象视频篡改取证算法，大多基于传统图像处理以及分类器等方法进行，没有涉及到深度学习的方法，原因是视频帧内的物体众多，被篡改物体不适用于利用深度学习的网络直接对进行特征学习，因此还没有结合深度学习的方法进行帧内视频取证方面的研究。

发明内容

为克服现有技术中视频运动对象篡改检测方法存在的问题，本发明提出基于VGG-11卷积神经网络的视频运动对象篡改取证方法，可以自动检测和识别基于目标对象篡改的伪造帧。

本发明的技术方案是这样实现的：

基于VGG-11卷积神经网络的视频运动对象篡改取证方法，包括步骤

S1：采用聚合运算计算视频中伪造帧与未伪造帧之间的运动残差，对伪造帧和未伪造帧进行分类；

S2：基于所述运动残差，提取运动残差图特征；

S3：构建基于VGG-11的卷积神经网络；

S4：使用所述运动残差图特征，训练所述基于VGG-11的卷积神经网络；

S5：使用所述基于VGG-11的卷积神经网络判定视频运动对象是否被篡改。

进一步地，所述步骤S2中所述运动残差图特征提取包括提取548维的CC-PEV、686维的SPAM、2510维的CC-JRM和7850维的CF这四种特征。

进一步地，步骤S3还包括步骤S31：在输入VGG-11网络前加入一层全连接层，用于将不同维度大小的特征转化为固定维度大小的特征，便于构造相同尺寸的特征图，以方便VGG-11网络进行训练和测试。

进一步地，步骤S3包括步骤：

S31：从特征集中随机选取特征数据传入第一层全连接层，得到一个1024维的特征，构造一个尺寸大小为32×32×1特征图像；

S32：使用所述32×32×1图像作为输入，依次经过卷积块中的卷积层和池化层处理，输出结果为1×1×512图像；

S33：将卷积层序列最后输出的1×1×512图像作为输入，依次经过两个全连接层，最后由SoftMax分类层输出分类结果。

进一步地，步骤S4中所述训练所述基于VGG-11的卷积神经网络，采用随机梯度下降方法进行优化，设定动量参数为固定值0.8，初始学习率为0.01，学习率调整因子设置为0.96，迭代次数设定为1000，通过随机方法对全连接层和SoftMax分类层的参数进行初始化，选择识别准确率作为模型训练的评价指标。

本发明的有益效果在于，与现有技术相比，本发明能更好地自动识别篡改视频中的伪造帧。

附图说明

图1是本发明基于VGG-11卷积神经网络的视频运动对象篡改取证方法流程图；

图2是本发明一个实施例中VGG-11卷积神经网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，基于VGG-11卷积神经网络的视频运动对象篡改取证方法，包括步骤

S2：基于所述运动残差，提取运动残差图特征；

S3：构建基于VGG-11的卷积神经网络；

在步骤S1中，由于运动目标对象的篡改只会影响视频中部分帧内的内容，这样就会造成在伪造帧与未伪造帧这些连续帧之间内容的一个突变，这种突变的统计特征与隐写分析的统计特征相似，可以在运动残差图中进行提取，利用这些统计特征就可以对伪造帧和未伪造帧进行分类。

将一段长度为N的视频帧序列，定义为

Seq＝{F¹，F²，F³，...，F^N-1，F^N}，N∈Z (1)

那么，第k个解压缩视频帧为：

且是大小为n₁×n₂的8-bit灰度静止图像。在以第F^k帧为中心，窗口大小为L＝2×L_h+1，局部时间窗口里的聚合运算(L_h为第F^k帧的左或右邻帧的数量)，被定义为：

式中agg为：聚合函数，聚合函数将时间窗口中所有邻帧的相应坐标(i，j)的像素差距的最小值(或最大值、中间值)作为

即通过式(2)、(3)得到Col^k。Col^k表示运动物体在时间聚合窗口中第k帧的运动情况，MR^k是运动残差的度量。因此，第F^k帧的运动残差即可被定义为：

MR^k＝|F^k-Co^k| (4)

即对应坐标(i，j)中的

定义为：

因此，由式(5)求最小残差图

(图3)需要将其中

定义为：

根据式(6)(7)可知：

那么可得到

因此，

也可认为最小残差图MR^k是灰度值为8-bit静止图像。

步骤S2中，本发明实施例采用548维的CC-PEV、686维的SPAM、2510维的CC-JRM和7850维的CF这四种特征提取算法分别进行针对运动残差图的特征提取。

步骤S3中构建的基于VGG-11的卷积神经网络如图2所示。VGG-11卷积神经网络包含11个权重层，分别为8个卷积层和3个全连接层。此外VGG-11网络并不是在每个卷积层后面都接着一个池化层(共5个池化层)而是分布在不同的卷积层下。池化层的池化层窗口大小为2×2，步长为2，其用于减小卷积后的特征图像的尺寸大小，以及确保模型的平移不变性。最后由SoftMax分类器进行分类。

特征分类部分采用VGG-11卷积神经网络，该网络框架分为卷积层、池化层，全连接层，SoftMax分类层。其中在输入VGG-11网络前加入一层全连接层，用于将不同维度大小的特征转化为固定维度大小的特征，便于构造相同尺寸的特征图，以方便VGG-11网络进行训练和测试，模型的激活函数为ReLU函数，具体参数如表1所示。

表1：VGG-11网络结构

步骤S3包括步骤：

S31：从特征集中随机选取特征数据传入第一层全连接层，得到一个1024维的特征。用其构造一个尺寸大小为32×32×1特征图像；

S32：将步骤S31中得到的32×32×1图像作为输入，依次经过按表1的卷积块中的卷积和池化层处理，输出结果为1×1×512图像；

S33；再将卷积层序列最后输出的1×1×512图像作为输入，依次经过两层全连接层，最后由SoftMax分类层输出分类结果。

在本发明的一个实施例中，训练数据库里面包含100段原始视频和100段伪造视频，其中50％的视频片段是从原始视频中随机选取的，它们与相应的伪造版本一起构成训练集，其余50％的视频片段用于测试。所有实验重复50次，并报告平均结果。所有的原始视频片段都提取自静态的商业监控摄像头，每段视频是3Mbit/s，1280×720(720P)，H.264/MPEG4编码，帧速率是25frames/s，每段长度大约是11秒，每段长度约300帧左右，其中100个伪造的视频是在原始视频的基础上篡改1-2段长度为1-5秒的视频片段。该数据库的伪造视频几乎找不到任何表面可看到的痕迹。

训练取证模型时，采用随机梯度下降方法进行优化，设定动量参数为固定值0.8，初始学习率为0.01，学习率调整因子设置为0.96，迭代次数设定为1000，通过随机方法对全连接层和SoftMax分类层的参数进行初始化，选择识别准确率作为模型训练的评价指标。将通过隐写特征提取的四种特征样本集分别输入模型进行训练，用于筛选出最合适该模型的隐写特征，以分类准确率为目标，测试不同特征的数据样本的表现结果。

与现有技术相比，本发明基于隐写分析特征提取的篡改取证模型识别率综合评价能满足视频运动对象篡改取证的要求，本发明适用于监控视频的帧内对象篡改取证。

本发明对四种特征：CC-JRM(2510维)、CCPEV(548维)特征、SPAM(686维)和CF(7850维)能有效提高分类准确率，尤其是CC-JRM(2510维)更适宜用于本发明所构造的取证模型，能有效提高分类准确率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于VGG-11卷积神经网络的视频运动对象篡改取证方法，其特征在于，包括步骤

S1：采用聚合运算计算视频中伪造帧与未伪造帧之间的运动残差，对伪造帧和未伪造帧进行分类，所述S1包括步骤：在步骤S1中，由于运动目标对象的篡改只会影响视频中部分帧内的内容，这样就会造成在伪造帧与未伪造帧这些连续帧之间内容的一个突变，这种突变的统计特征与隐写分析的统计特征相似，可以在运动残差图中进行提取，利用这些统计特征就可以对伪造帧和未伪造帧进行分类：

将一段长度为N的视频帧序列，定义为

Seq＝{F¹，F²，F³，...，F^N-1，F^N}，N∈Z (1)

那么，第k个解压缩视频帧为：且是大小为n₁×n₂的8-bit灰度静止图像，在以第F^k帧为中心，窗口大小为L＝2×L_h+1，局部时间窗口里的聚合运算，其中，L_h为第F^k帧的左或右邻帧的数量，被定义为：

式中agg为：聚合函数，聚合函数将时间窗口中所有邻帧的相应坐标(i，j)的像素差距的最小值或最大值或中间值作为即通过式(2)、(3)得到Col^k，Col^k表示运动物体在时间聚合窗口中第k帧的运动情况，MR^k是运动残差的度量，因此，第F^k帧的运动残差即可被定义为：

MR^k＝|F^k-Col^k| (4)

即对应坐标(i，j)中的定义为：

因此，由式(5)求最小残差图需要将其中定义为：

根据式(6)(7)可知：那么可得到因此，也可认为最小残差图MR^k是灰度值为8-bit静止图像；

S2：基于所述运动残差，提取运动残差图特征；

S3：构建基于VGG-11的卷积神经网络；

2.如权利要求1所述的基于VGG-11卷积神经网络的视频运动对象篡改取证方法，其特征在于，所述步骤S2中所述运动残差图特征提取包括提取548维的CC-PEV、686维的SPAM、2510维的CC-JRM和7850维的CF这四种特征。

3.如权利要求1所述的基于VGG-11卷积神经网络的视频运动对象篡改取证方法，其特征在于，步骤S3还包括步骤S31：在输入VGG-11网络前加入一层全连接层，用于将不同维度大小的特征转化为固定维度大小的特征，便于构造相同尺寸的特征图，以方便VGG-11网络进行训练和测试。

4.如权利要求1所述的基于VGG-11卷积神经网络的视频运动对象篡改取证方法，其特征在于，步骤S3包括步骤：

S 31：从特征集中随机选取特征数据传入第一层全连接层，得到一个1024维的特征，构造一个尺寸大小为32×32×1特征图像；

5.如权利要求1所述的基于VGG-11卷积神经网络的视频运动对象篡改取证方法，其特征在于，步骤S4中所述训练所述基于VGG-11的卷积神经网络，采用随机梯度下降方法进行优化，设定动量参数为固定值0.8，初始学习率为0.01，学习率调整因子设置为0.96，迭代次数设定为1000，通过随机方法对全连接层和SoftMax分类层的参数进行初始化，选择识别准确率作为模型训练的评价指标。