CN111565318A

CN111565318A - 一种基于稀疏样本的视频压缩方法

Info

Publication number: CN111565318A
Application number: CN202010372156.8A
Authority: CN
Inventors: 郑志浩; 姚远; 张学睿; 张帆; 尚明生
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-21

Abstract

本发明涉及一种基于稀疏样本的视频压缩方法，属于视频压缩技术领域。该方法包括：S1：数据预处理；S2：首先通过变分自编码器与生成对抗网络结合的视频生成方法，利用变分自编码器对数据集中视频的每一帧进行学习，构建具有良好连续性的隐空间，隐空间中的每一点对应视频中的一帧；然后将噪声与文本输入生成对抗网络的生成器，生成器则生成潜变量空间中的多个相关联的点，最后通过变分自编码器的解码器生成连续图像；S3：将生成的连续图像输入视频压缩模型，通过CNN网络筛选背景帧，然后使用YOLO神经网络对每一帧图像当中的目标进行识别。本发明能够提高视频压缩效率，同时减少网络传输时延和本地资源的消耗。

Description

一种基于稀疏样本的视频压缩方法

技术领域

本发明属于视频压缩技术领域，涉及一种基于稀疏样本的视频压缩方法。

背景技术

视频压缩技术常用于视频数据的传输、保存等，在日常生活中常有应用。视频监控成为越来越流行，随之带来的是海量的视频存储，因此视频压缩成为一个需求非常强烈的技术，视频压缩也成为了视频监控领域的研究热点。随着人工智能技术快速发展，尤其是深度学习的已经成功的应用到很多领域中，例如图像识别、语音识别、NLP和目标检测等领域中。因此可以考虑利用深度学习到视频压缩，来实现更高效的视频压缩。然而一个健壮的视频压缩神经网络通常需要大量的训练数据进行长期的训练才能成型，训练数据的采集制作需要长期且大量的人员、设备、时间投入，增加项目的研发成本，也使得模型的计算复杂性很高。因此需要在保证模型质量的前提下，减小数据集的采集难度和体量，确保视频压缩模型既能保证原视频的分辨率等信息，又能降低视频的存储代价是目前现有技术中急需解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于稀疏样本的视频压缩方法，提高视频压缩效率的同时，减少网络传输时延和本地资源的消耗。

为达到上述目的，本发明提供如下技术方案：

一种基于稀疏样本的视频压缩方法，具体包括以下步骤：

S1：数据预处理；

S2：构建训练稀疏视频样本扩充模型，首先通过变分自编码器与生成对抗网络结合的视频生成方法，利用变分自编码器对数据集中视频的每一帧进行学习，构建具有良好连续性的隐空间，隐空间中的每一点对应视频中的一帧；然后将噪声与文本输入生成对抗网络的生成器，生成器则生成潜变量空间中的多个相关联的点，最后将这些相关联的点通过变分自编码器的解码器生成多帧相关联连续图像，这些图像组成所要生成的视频；

S3：构建训练视频压缩网络模型，并将生成的连续图像输入视频压缩模型，通过CNN网络进行背景帧的筛选，然后使用基于卷积神经网络的YOLO神经网络对每一帧图像当中的目标进行识别，并保存识别信息，即为压缩视频。

进一步，步骤S1中，所述数据预处理具体包括：针对少量采集视频，先将视频文件做音频抽离处理，得到“视频-音频”数据，对收集的视频及音频数据做归一化处理，得到生成对抗网络训练过程中使用的数据集；并将视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的音频片段，得到稀疏样本扩充模型的基础数据集。

进一步，步骤S2中，构建的稀疏视频样本扩充模型包括训练变分自编码器和生成对抗网络，模型训练具体包括：

1)从预处理得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练；变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，其中编码器Encoder通过对输入的每一帧图像x计算均值m_x和方差v_x，将图像映射到专属于该图像的正态分布N(m_x，v_x)，再从该分布中随机采样一个D维的隐变量，将该隐变量输入解码器Decoder，Decoder输出解码图像；同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值m_i附近，这个均值通过神经网络计算得到；然后从预处理之后的数据集中取出M个样本对，作为生成对抗网络训练中使用的真实样本对；将取得的样本对进行视频-音频随机配对，得到M个不匹配样本对，随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练；

2)生成对抗网络的训练过程分为生成器G的训练和判别器D的训练，生成器G的训练以最小化LossG为目标，判别器D的训练以最小化LossD为目标；训练过程中先训练判别器D，再训练生成器G，重复训练过程，直到生成的视频样本质量达到要求。

进一步，所述变分自编码器的损失函数为：

其中，m_x、v_x分别是图像x经过编码器Encoder得到的正态分布的均值和方差，m_i是图像x所属类别均值，x为变分自编码器输出的重建图像，

为目标值；训练过程以最小化损失函数loss为目标；

生成器G的损失函数为：

LossG＝-log(D(x_g,xv_g)) (2)

其中，x_g为输入生成器G生成的视频样本，xv_g为生成器G输入的音频样本；

判别器D的损失函数为：

LoosD＝-log(D(z_r,s_r))-log(1-D(z_m,s_m))-log(1-D(z_f,s_g)) (3)

其中，z_r、z_m、z_f分别是x_r、x_m、x_g经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。

进一步，步骤S3中，通过CNN网络进行背景帧的筛选，具体包括：使用OpenCV将已有的数据集和生成的数据集分帧，提取出匹配的音频，音频不继续做处理，将得到的图像帧进行卷及神经网络分类得到类别G，分别在G_i当中取得该类别当中置信度最高的G_ij为背景帧。

进一步，步骤S3中，构建训练视频压缩网络模型具体包括：基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来，并将运动物体所在的位置行成矩形框裁剪出来，保存为图片；所述目标检测算法为基于区域的卷积神经网络为YOLO，目标检测算法用于检测出物体的种类，定位物体的位置；

首先，将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中，将运动物体所在的位置作为感兴趣区域，滤除非感兴趣区域如其他静止物体，取得运动帧为m-1帧，根据第m-1帧重构帧及第m帧计算运动向量，得到第m帧预测帧；计算重构m帧和实际第m帧的残差，作用于重构计算网络，优化运动向量，当残差足够小后，将运动向量保存为帧信息；将矩形框图像的边缘和背景图像RGB颜色信息数值求均值，使背景和目标物两张图像之间的色彩平滑过渡，以便于将解码还原的所有图像帧组合形成视频；

然后，将裁剪的运动物体矩形框图片、定位信息、以及所处理的帧信息作为一组保存到链表中，完成所有帧图像的压缩。

本发明的有益效果在于：本发明的视频压缩方法，支持少量样本通过生成对抗网络进行扩充，进一步训练视频压缩YOLO模型，结合监控视频背景变化小的特点，对每一帧进行关键信息抽取，只关心运动物体，减少了大量的冗余信息，提高了视频的压缩率，同时，还提高了监控的视频传输速率，节省了大量的视频存储空间，减少了监控视频的传输时延，减少了其他无关因素对视频的影响。同时本发明方法结合神经网络模型进行视频压缩，随着压缩视频的量逐渐增加，模型的压缩效果会越来越好。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于稀疏样本的视频压缩方法的框架图；

图2为视频背景帧选取流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，图1为一种基于稀疏样本的视频压缩方法的框架图，本发明方法使用生成对抗网络生成新的训练数据对采集的稀疏视频数据进行扩充，然后使用这类数据训练视频压缩网络，实现视频背景帧和运动物体的抽取。

生成对抗网络以生成器生成样本，以判别器区分生成器生成的样本与真样本，二者以对抗的方式进行学习，构成动态的博弈，当最终达到纳什均衡时，判别器不能区分生成样本与真样本，那么使用生成对抗网络根据已有稀疏样本，生成新视频数据进行训练，此时采用生成数据训练得到的视频压缩模型和使用实际数据训练得到的视频压缩模型也就几乎没有差异。

本发明优选了一种基于稀疏样本的视频压缩方法，具体包括以下步骤：

1)数据预处理

少量采集视频，并将视频文件做音频抽离处理，得到“视频-音频”数据，对收集的视频及音频数据做归一化处理，得到生成对抗网络训练过程中使用的数据集；并且将视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的音频片段，得到稀疏样本扩充模型的基础数据集。

2)定义生成对抗网络模型

从上述得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，其中编码器Encoder通过对输入的每一帧图像x计算均值m_x和方差v_x，将图像映射到专属于该图像的正态分布N(m_x，v_x)，再从该分布随机中采样一个D维的隐变量，将该隐变量输入解码器Decoder，Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值m_i附近，这个均值通过神经网络计算得到。然后从预处理之后的数据集中取出M个样本对，作为生成对抗网络训练中使用的真实样本对；将取得的样本对进行视频-音频随机配对，得到M个不匹配样本对，随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练。

变分自编码器的损失函数：

其中，m_x、v_x分别是图像x经过编码器Encoder得到的正态分布的均值和方差，m_i是该图像所属类别均值，x为变分自编码器输出的重建图像，

为目标值。训练过程以最小化损失函数loss为目标。

生成器G的损失函数为：

LossG＝-log(D(x_g,xv_g)) (2)

其中，x_g为输入生成器G生成的视频样本，xv_g为生成器G输入的音频样本。

判别器D的损失函数为：

LoosD＝-log(D(z_r,s_r))-log(1-D(z_m,s_m))-log(1-D(z_f,s_g)) (3)

生成对抗网络的训练过程分为生成器G的训练和判别器D的训练，生成器G的训练以最小化LossG为目标，判别器D的训练以最小化LossD为目标。训练过程中先训练判别器D，再训练生成器G，重复训练过程，直到生成的视频样本质量达到要求。

3)选取视频的背景帧

如图2所示，使用OpenCV将已有的数据集和生成的数据集分帧，提取出匹配的音频，音频不继续做处理，将得到的图像帧进行卷及神经网络分类得到类别G，分别在G_i当中取得该类别当中置信度最高的G_ij为背景帧。

4)定义视频压缩网络模型

基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来，并将运动物体所在的位置行成矩形框裁剪出来，保存为图片，所述目标检测算法为基于区域的卷积神经网络为YOLO，目标检测算法用于检测出物体的种类，定位物体的位置。

首先，将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中，将运动物体所在的位置作为感兴趣区域，滤除非感兴趣区域如其他静止物体，取得运动帧为m-1帧，根据第m-1帧重构帧及第m帧计算运动向量，得到第m帧预测帧。计算重构m帧和实际第m帧的残差，作用于重构计算网络，优化运动向量，当残差足够小后，将运动向量保存为帧信息。将矩形框图像的边缘和背景图像RGB颜色信息数值求均值，使背景和目标物两张图像之间的色彩平滑过渡，以便于将解码还原的所有图像帧组合形成视频。

然后，将裁剪的运动物体矩形框图片、定位信息、所处理的帧信息这三项作为一组保存到链表中，完成所有帧图像的压缩。

5)视频解压还原

首先从链表中依次取出运动物体的裁剪矩形框、位置和图像帧的编号作为一组，把每一组覆盖到背景帧中，完成所有帧图像的解码还原。

对比实验：利用本实施例方法在实验工程中进行多参数对比试验，本发明建立的压缩模型的压缩效果很好。在实验中，保持其他参数不变，改变其中一个参数，分别记录实验结果。其中压缩效率是源视频大小与压缩视频大小之比，值越大，效率越高。

表1实验结果一览表

表1中数据可以看出，视频压缩效率和一次性压缩视频体积、视频帧数有一定的关系，剪辑源视频大小为341M、1001M时，帧数不同，压缩效果不同，帧数高的源视频，压缩效率普遍高于帧数低的视频。压缩过程中，模型可以设置输出视频的帧数和原视频一致，但考虑到增加该参数会导致模型强行凑帧数，使得解压视频失真率大大提高，故输出帧率是根据模型实际的情况得到的。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于稀疏样本的视频压缩方法，其特征在于，该方法具体包括以下步骤：

S1：数据预处理；

S2：构建训练稀疏视频样本扩充模型，首先通过变分自编码器与生成对抗网络结合的视频生成方法，利用变分自编码器对数据集中视频的每一帧进行学习，构建具有良好连续性的隐空间，隐空间中的每一点对应视频中的一帧；然后将噪声与文本输入生成对抗网络的生成器，生成器则生成潜变量空间中的多个相关联的点，最后将这些相关联的点通过变分自编码器的解码器生成多帧相关联连续图像；

2.根据权利要求1所述的一种基于稀疏样本的视频压缩方法，其特征在于，步骤S1中，所述数据预处理具体包括：针对少量采集视频，先将视频文件做音频抽离处理，得到“视频-音频”数据，对收集的视频及音频数据做归一化处理，得到生成对抗网络训练过程中使用的数据集；并将视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的音频片段，得到稀疏样本扩充模型的基础数据集。

3.根据权利要求1所述的一种基于稀疏样本的视频压缩方法，其特征在于，步骤S2中，构建的稀疏视频样本扩充模型包括训练变分自编码器和生成对抗网络，模型训练具体包括：

4.根据权利要求3所述的一种基于稀疏样本的视频压缩方法，其特征在于，所述变分自编码器的损失函数为：

为目标值；训练过程以最小化损失函数loss为目标；

生成器G的损失函数为：

LossG＝-log(D(x_g，xv_g)) (2)

判别器D的损失函数为：

LoosD＝-log(D(z_r，s_r))-log(1-D(z_m，s_m))-log(1-D(z_f，s_g)) (3)

5.根据权利要求1所述的一种基于稀疏样本的视频压缩方法，其特征在于，步骤S3中，通过CNN网络进行背景帧的筛选，具体包括：使用OpenCV将已有的数据集和生成的数据集分帧，提取出匹配的音频，音频不继续做处理，将得到的图像帧进行卷及神经网络分类得到类别G，分别在G_i当中取得该类别当中置信度最高的G_ij为背景帧。

6.根据权利要求1所述的一种基于稀疏样本的视频压缩方法，其特征在于，步骤S3中，构建训练视频压缩网络模型具体包括：基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来，并将运动物体所在的位置行成矩形框裁剪出来，保存为图片；所述目标检测算法为基于区域的卷积神经网络为YOLO；