CN111432211A

CN111432211A - 一种用于视频编码的残差信息压缩方法

Info

Publication number: CN111432211A
Application number: CN202010247702.5A
Authority: CN
Inventors: 段强; 汝佩哲; 李锐; 金长新
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-17
Anticipated expiration: 2040-04-01
Also published as: CN111432211B

Abstract

本发明提供一种用于视频编码的残差信息压缩方法，涉及信息压缩、编解码领域，通过使用自编码器的思想，将残差信息通过训练好的编码器网络进行提取，生成一个特征图，然后通过量化降低数据的存储空间，再用熵编码将量化后的数据进行进一步压缩。残差信息解码的时候，使用相反的流程，将保存的熵编码数据解码并反量化，并通结构相反的解码器进行解码，从特征图恢复为三通道的残差信息。通过对已有的残差信息进行压缩或二次压缩，成倍的减少存储空间，减少存储成本。

Description

一种用于视频编码的残差信息压缩方法

技术领域

本发明涉及信息压缩、编解码领域，尤其涉及一种用于视频编码的残差信息压缩方法。

背景技术

在数字媒体时代，大量的图像视频数据从日常生活、网络社交、治安监控、工业生产等领域产生并存储下来，需要耗费大量的存储空间。目前主流的视频压缩格式h264压缩率仍有提升空间，基于块的运动估计也会产生色差，尚未普及的h265由于压缩效率低，以及各种专利纠纷问题，因此不被看好。

运动补偿是通过先前的局部图像来预测、补偿当前的局部图像，它是减少帧序列冗余信息的有效方法。它与真实的视频信息通常存在一个残差,残差信息可以补全运动补偿过程中所丢失的信息。

鉴于人工智能领域的各项任务已经大规模应用神经网络和深度学习技术，因此借助神经网络对数据进行压缩很有前景。

发明内容

基于以上技术问题，本发明提出了一种用于视频编码的残差信息压缩方法，可以在低比特率的情况下获得压缩后的残差信息，用于视频压缩的运动估计后残差信息的存储和压缩。

本发明基于自编码器的神经网络结构，使用GDN激活函数，并结合量化和熵编码进行残差信息压缩。

自编码器是一种能通过无监督学习，学到输入数据高效表示的人工神经网络。它不需要专门标注训练数据，损失是基于输入输出的差值来计算的。输入数据通过神经网络进行表示的过程可以被认为是一种编码，其维度通常小于输入数据，从而达到压缩和降维的作用。简单的训练它使得输入输出相同并没有很大意义，因此通过添加内部的尺寸限制，如bottleneck layer，以及训练数据增加噪声，并训练自编码器使其恢复原有的数据，这样强制它学习到数据的高效表示。

得到高效表示之后，可以对其量化来达到进一步压缩的效果。因为有时精度较高的浮点数占用大量存储空间，但小数点后过多位数对实际任务并没有很大益处。然而在神经网络的反向传播中，是通过梯度下降来优化，但量化是一个不可导的过程，无法用于梯度计算的过程。因此有多种可以替代直接量化的方法，如添加均匀噪声、软量化等。

量化之后的特征值还需要进行熵编码来进一步压缩，常用的熵编码如算数编码，哈夫曼编码，香农编码等，重要的是设计高效的概率模型。

熵编码属于对数据的无损压缩，通过识别和消除统计冗余的部分来减少比特，这使得其在执行压缩时不会丢失信息。其目的在于用更少的位(比原始数据表示所需要的位)来显示离散数据，同时在压缩的过程中不会有信息损失。

这种基于自编码器和熵编码对残差信息进行压缩的方法可以在低比特率的情况下获得压缩后的残差信息，用于视频压缩的运动估计后残差信息的存储和压缩。

通过使用自编码器，将残差特征用于训练自编码器网络。然后使用训练好的编码器(Encoder)网络进行提取，生成一个特征图(Feature Map)，然后通过量化(Quantize)降低数据的存储空间，再用熵编码(Entropy Coding)将量化后的数据进行进一步压缩。残差信息解码的时候，使用相反的流程，将保存的熵编码数据解码并反量化，并通结构相反的解码器(Decoder)进行解码，从特征图恢复为残差信息。

实施步骤包括：搭建神经网络架构，编码，量化，熵编码，保存生成文件，熵解码和解码。具体地，

1)、搭建神经网络架构，规定好编码所需的卷积层的层数，卷积核大小，padding的方法，strides的数量。总的来说，设计原则通常是卷积核尺寸先大后小，数量先少后多或前后一致，在某些层设置strides>1来缩小特征图的尺寸；

2)使用训练集进行训练，每一个残差信息的标签都是其自身，通过mse和bpp构建损失函数，使用Adam优化器进行优化。多次迭代之后可以得到一个训练好的神经网络模型；

3)编码过程就是将已有的残差信息输入训练好的神经网络的Encoder部分,通过多步卷积,得到特征图(Feature Map)的过程。其中每层卷积层的激活函数使用ReLU或者GDN；

4)量化常用的有添加均匀噪声和软量化两种方式。添加均匀噪声就是在训练中，添加噪声来代替量化的过程，因为量化前后的差值类似一种均匀噪声，我们通过人为添加噪声来进行模拟。

5)开始熵编码，先二进制化，对二进制数进行编码。非二进制数必须二进制化或在算数编码前转换成二进制数。统计所有二进制符号的概率密度函数，对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码。

6)将编码后的文件序列化保存下来，可以使用pickle等序列化的包进行处理。

7)进行熵解码，把序列化保存的文件读取，先转化为十进制小数，即最高位前面加小数点变为小数，然后根据已有的概率密度函数进行解码。

8)熵解码后会得到一个和熵编码之前大小完全相同的特征图，然后通过构建一个和编码网络相反的神经网络，用反卷积层代替卷积层，将特征图恢复为三通道的残差信息，并在保存的时候进行一步取整量化。

本发明的有益效果是

对图像压缩和超分辨率的任务有较好的效果。

可应用于视频编解码和压缩领域，通过对已有的残差信息进行压缩或二次压缩，成倍的减少存储空间，减少存储成本。压缩的残差信息主要用于补充视频压缩中丢失的信息，提高视频压缩的画面质量。

附图说明

图1是本发明的工作流程示意图；

图2是神经网络结构示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过使用自编码器的思想，将残差信息通过训练好的编码器(Encoder)网络进行提取，生成一个特征图(Feature Map)，然后通过量化(Quantize)降低数据的存储空间，再用熵编码将量化后的数据进行进一步压缩。残差信息解码的时候，使用相反的流程，将保存的熵编码数据解码并反量化，并通结构相反的解码器(Decoder)进行解码，从特征图恢复为三通道的残差信息。

具体步骤包括：搭建神经网络架构，编码，量化，熵编码，保存生成文件，熵解码和解码。具体地，

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用于视频编码的残差信息压缩方法，其特征在于，

基于自编码器的神经网络结构，使用GDN激活函数，并结合量化和熵编码进行残差信息压缩。

2.根据权利要求1所述的方法，其特征在于，

通过添加内部的尺寸限制，以及训练数据增加噪声，并训练自编码器使其恢复原有的数据，这样强制它学习到数据的高效表示。

3.根据权利要求2所述的方法，其特征在于，

得到高效表示之后，再对其量化来达到进一步压缩的效果；

量化之后的特征值需要进行熵编码来进一步压缩。

4.根据权利要求3所述的方法，其特征在于，

熵编码属于对数据的无损压缩，通过识别和消除统计冗余的部分来减少比特，这使得其在执行压缩时不会丢失信息。

5.根据权利要求4所述的方法，其特征在于，

通过使用自编码器的思想，将残差特征用于训练自编码器网络；然后使用训练好的编码器网络进行提取，生成一个特征图，然后通过量化降低数据的存储空间，再用熵编码将量化后的数据进行进一步压缩；残差信息解码的时候，使用相反的流程，将保存的熵编码数据解码并反量化，并通结构相反的解码器进行解码，从特征图恢复为残差信息。

6.根据权利要求5所述的方法，其特征在于，

步骤包括：搭建神经网络架构，编码，量化，熵编码，保存生成文件，熵解码和解码；

其中，网络结构至少应包括一组通过设置Strides降采样的卷积层，一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。

7.根据权利要求6所述的方法，其特征在于，

这里卷积层的卷积核大小和个数通过实验得到组合，卷积层的激活函数使用GDN(Generalized divisive normalization)或ReLU。

8.根据权利要求6或7所述的方法，其特征在于，

具体步骤：

1)搭建神经网络架构，规定好编码所需的卷积层的层数，卷积核大小，padding的方法，strides的数量；

2)使用训练集进行训练，每一个残差信息的标签都是其自身，通过mse和bpp构建损失函数，使用Adam优化器进行优化；数次迭代之后可以得到一个训练好的神经网络模型；

3)编码过程就是将已有的残差信息输入训练好的神经网络的Encoder部分,通过多步卷积,得到特征图的过程；

4)量化常用的有添加均匀噪声和软量化两种方式；添加均匀噪声就是在训练中，添加噪声来代替量化的过程；

5)开始熵编码，先二进制化，对二进制数进行编码；非二进制数必须二进制化或在算数编码前转换成二进制数；统计所有二进制符号的概率密度函数，对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码；

6)将编码后的文件序列化保存下来，使用序列化的包进行处理；

7)进行熵解码，把序列化保存的文件读取，先转化为十进制小数，即最高位前面加小数点变为小数，然后根据已有的概率密度函数进行解码；