CN111432211A - 一种用于视频编码的残差信息压缩方法 - Google Patents

一种用于视频编码的残差信息压缩方法 Download PDF

Info

Publication number
CN111432211A
CN111432211A CN202010247702.5A CN202010247702A CN111432211A CN 111432211 A CN111432211 A CN 111432211A CN 202010247702 A CN202010247702 A CN 202010247702A CN 111432211 A CN111432211 A CN 111432211A
Authority
CN
China
Prior art keywords
coding
quantization
entropy
decoding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010247702.5A
Other languages
English (en)
Other versions
CN111432211B (zh
Inventor
段强
汝佩哲
李锐
金长新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN202010247702.5A priority Critical patent/CN111432211B/zh
Publication of CN111432211A publication Critical patent/CN111432211A/zh
Application granted granted Critical
Publication of CN111432211B publication Critical patent/CN111432211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种用于视频编码的残差信息压缩方法,涉及信息压缩、编解码领域,通过使用自编码器的思想,将残差信息通过训练好的编码器网络进行提取,生成一个特征图,然后通过量化降低数据的存储空间,再用熵编码将量化后的数据进行进一步压缩。残差信息解码的时候,使用相反的流程,将保存的熵编码数据解码并反量化,并通结构相反的解码器进行解码,从特征图恢复为三通道的残差信息。通过对已有的残差信息进行压缩或二次压缩,成倍的减少存储空间,减少存储成本。

Description

一种用于视频编码的残差信息压缩方法
技术领域
本发明涉及信息压缩、编解码领域,尤其涉及一种用于视频编码的残差信息压缩方法。
背景技术
在数字媒体时代,大量的图像视频数据从日常生活、网络社交、治安监控、工业生产等领域产生并存储下来,需要耗费大量的存储空间。目前主流的视频压缩格式h264压缩率仍有提升空间,基于块的运动估计也会产生色差,尚未普及的h265由于压缩效率低,以及各种专利纠纷问题,因此不被看好。
运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。它与真实的视频信息通常存在一个残差,残差信息可以补全运动补偿过程中所丢失的信息。
鉴于人工智能领域的各项任务已经大规模应用神经网络和深度学习技术,因此借助神经网络对数据进行压缩很有前景。
发明内容
基于以上技术问题,本发明提出了一种用于视频编码的残差信息压缩方法,可以在低比特率的情况下获得压缩后的残差信息,用于视频压缩的运动估计后残差信息的存储和压缩。
本发明基于自编码器的神经网络结构,使用GDN激活函数,并结合量化和熵编码进行残差信息压缩。
自编码器是一种能通过无监督学习,学到输入数据高效表示的人工神经网络。它不需要专门标注训练数据,损失是基于输入输出的差值来计算的。输入数据通过神经网络进行表示的过程可以被认为是一种编码,其维度通常小于输入数据,从而达到压缩和降维的作用。简单的训练它使得输入输出相同并没有很大意义,因此通过添加内部的尺寸限制,如bottleneck layer,以及训练数据增加噪声,并训练自编码器使其恢复原有的数据,这样强制它学习到数据的高效表示。
得到高效表示之后,可以对其量化来达到进一步压缩的效果。因为有时精度较高的浮点数占用大量存储空间,但小数点后过多位数对实际任务并没有很大益处。然而在神经网络的反向传播中,是通过梯度下降来优化,但量化是一个不可导的过程,无法用于梯度计算的过程。因此有多种可以替代直接量化的方法,如添加均匀噪声、软量化等。
量化之后的特征值还需要进行熵编码来进一步压缩,常用的熵编码如算数编码,哈夫曼编码,香农编码等,重要的是设计高效的概率模型。
熵编码属于对数据的无损压缩,通过识别和消除统计冗余的部分来减少比特,这使得其在执行压缩时不会丢失信息。其目的在于用更少的位(比原始数据表示所需要的位)来显示离散数据,同时在压缩的过程中不会有信息损失。
这种基于自编码器和熵编码对残差信息进行压缩的方法可以在低比特率的情况下获得压缩后的残差信息,用于视频压缩的运动估计后残差信息的存储和压缩。
通过使用自编码器,将残差特征用于训练自编码器网络。然后使用训练好的编码器(Encoder)网络进行提取,生成一个特征图(Feature Map),然后通过量化(Quantize)降低数据的存储空间,再用熵编码(Entropy Coding)将量化后的数据进行进一步压缩。残差信息解码的时候,使用相反的流程,将保存的熵编码数据解码并反量化,并通结构相反的解码器(Decoder)进行解码,从特征图恢复为残差信息。
实施步骤包括:搭建神经网络架构,编码,量化,熵编码,保存生成文件,熵解码和解码。具体地,
1)、搭建神经网络架构,规定好编码所需的卷积层的层数,卷积核大小,padding的方法,strides的数量。总的来说,设计原则通常是卷积核尺寸先大后小,数量先少后多或前后一致,在某些层设置strides>1来缩小特征图的尺寸;
2)使用训练集进行训练,每一个残差信息的标签都是其自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化。多次迭代之后可以得到一个训练好的神经网络模型;
3)编码过程就是将已有的残差信息输入训练好的神经网络的Encoder部分,通过多步卷积,得到特征图(Feature Map)的过程。其中每层卷积层的激活函数使用ReLU或者GDN;
4)量化常用的有添加均匀噪声和软量化两种方式。添加均匀噪声就是在训练中,添加噪声来代替量化的过程,因为量化前后的差值类似一种均匀噪声,我们通过人为添加噪声来进行模拟。
5)开始熵编码,先二进制化,对二进制数进行编码。非二进制数必须二进制化或在算数编码前转换成二进制数。统计所有二进制符号的概率密度函数,对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码。
6)将编码后的文件序列化保存下来,可以使用pickle等序列化的包进行处理。
7)进行熵解码,把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,然后根据已有的概率密度函数进行解码。
8)熵解码后会得到一个和熵编码之前大小完全相同的特征图,然后通过构建一个和编码网络相反的神经网络,用反卷积层代替卷积层,将特征图恢复为三通道的残差信息,并在保存的时候进行一步取整量化。
本发明的有益效果是
对图像压缩和超分辨率的任务有较好的效果。
可应用于视频编解码和压缩领域,通过对已有的残差信息进行压缩或二次压缩,成倍的减少存储空间,减少存储成本。压缩的残差信息主要用于补充视频压缩中丢失的信息,提高视频压缩的画面质量。
附图说明
图1是本发明的工作流程示意图;
图2是神经网络结构示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过使用自编码器的思想,将残差信息通过训练好的编码器(Encoder)网络进行提取,生成一个特征图(Feature Map),然后通过量化(Quantize)降低数据的存储空间,再用熵编码将量化后的数据进行进一步压缩。残差信息解码的时候,使用相反的流程,将保存的熵编码数据解码并反量化,并通结构相反的解码器(Decoder)进行解码,从特征图恢复为三通道的残差信息。
具体步骤包括:搭建神经网络架构,编码,量化,熵编码,保存生成文件,熵解码和解码。具体地,
1)、搭建神经网络架构,规定好编码所需的卷积层的层数,卷积核大小,padding的方法,strides的数量。总的来说,设计原则通常是卷积核尺寸先大后小,数量先少后多或前后一致,在某些层设置strides>1来缩小特征图的尺寸;
2)使用训练集进行训练,每一个残差信息的标签都是其自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化。多次迭代之后可以得到一个训练好的神经网络模型;
3)编码过程就是将已有的残差信息输入训练好的神经网络的Encoder部分,通过多步卷积,得到特征图(Feature Map)的过程。其中每层卷积层的激活函数使用ReLU或者GDN;
4)量化常用的有添加均匀噪声和软量化两种方式。添加均匀噪声就是在训练中,添加噪声来代替量化的过程,因为量化前后的差值类似一种均匀噪声,我们通过人为添加噪声来进行模拟。
5)开始熵编码,先二进制化,对二进制数进行编码。非二进制数必须二进制化或在算数编码前转换成二进制数。统计所有二进制符号的概率密度函数,对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码。
6)将编码后的文件序列化保存下来,可以使用pickle等序列化的包进行处理。
7)进行熵解码,把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,然后根据已有的概率密度函数进行解码。
8)熵解码后会得到一个和熵编码之前大小完全相同的特征图,然后通过构建一个和编码网络相反的神经网络,用反卷积层代替卷积层,将特征图恢复为三通道的残差信息,并在保存的时候进行一步取整量化。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种用于视频编码的残差信息压缩方法,其特征在于,
基于自编码器的神经网络结构,使用GDN激活函数,并结合量化和熵编码进行残差信息压缩。
2.根据权利要求1所述的方法,其特征在于,
通过添加内部的尺寸限制,以及训练数据增加噪声,并训练自编码器使其恢复原有的数据,这样强制它学习到数据的高效表示。
3.根据权利要求2所述的方法,其特征在于,
得到高效表示之后,再对其量化来达到进一步压缩的效果;
量化之后的特征值需要进行熵编码来进一步压缩。
4.根据权利要求3所述的方法,其特征在于,
熵编码属于对数据的无损压缩,通过识别和消除统计冗余的部分来减少比特,这使得其在执行压缩时不会丢失信息。
5.根据权利要求4所述的方法,其特征在于,
通过使用自编码器的思想,将残差特征用于训练自编码器网络;然后使用训练好的编码器网络进行提取,生成一个特征图,然后通过量化降低数据的存储空间,再用熵编码将量化后的数据进行进一步压缩;残差信息解码的时候,使用相反的流程,将保存的熵编码数据解码并反量化,并通结构相反的解码器进行解码,从特征图恢复为残差信息。
6.根据权利要求5所述的方法,其特征在于,
步骤包括:搭建神经网络架构,编码,量化,熵编码,保存生成文件,熵解码和解码;
其中,网络结构至少应包括一组通过设置Strides降采样的卷积层,一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。
7.根据权利要求6所述的方法,其特征在于,
这里卷积层的卷积核大小和个数通过实验得到组合,卷积层的激活函数使用GDN(Generalized divisive normalization)或ReLU。
8.根据权利要求6或7所述的方法,其特征在于,
具体步骤:
1)搭建神经网络架构,规定好编码所需的卷积层的层数,卷积核大小,padding的方法,strides的数量;
2)使用训练集进行训练,每一个残差信息的标签都是其自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化;数次迭代之后可以得到一个训练好的神经网络模型;
3)编码过程就是将已有的残差信息输入训练好的神经网络的Encoder部分,通过多步卷积,得到特征图的过程;
4)量化常用的有添加均匀噪声和软量化两种方式;添加均匀噪声就是在训练中,添加噪声来代替量化的过程;
5)开始熵编码,先二进制化,对二进制数进行编码;非二进制数必须二进制化或在算数编码前转换成二进制数;统计所有二进制符号的概率密度函数,对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码;
6)将编码后的文件序列化保存下来,使用序列化的包进行处理;
7)进行熵解码,把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,然后根据已有的概率密度函数进行解码;
8)熵解码后会得到一个和熵编码之前大小完全相同的特征图,然后通过构建一个和编码网络相反的神经网络,用反卷积层代替卷积层,将特征图恢复为三通道的残差信息,并在保存的时候进行一步取整量化。
CN202010247702.5A 2020-04-01 2020-04-01 一种用于视频编码的残差信息压缩方法 Active CN111432211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247702.5A CN111432211B (zh) 2020-04-01 2020-04-01 一种用于视频编码的残差信息压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247702.5A CN111432211B (zh) 2020-04-01 2020-04-01 一种用于视频编码的残差信息压缩方法

Publications (2)

Publication Number Publication Date
CN111432211A true CN111432211A (zh) 2020-07-17
CN111432211B CN111432211B (zh) 2021-11-12

Family

ID=71550390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247702.5A Active CN111432211B (zh) 2020-04-01 2020-04-01 一种用于视频编码的残差信息压缩方法

Country Status (1)

Country Link
CN (1) CN111432211B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022194137A1 (zh) * 2021-03-17 2022-09-22 华为技术有限公司 视频图像的编解码方法及相关设备
WO2023160717A1 (en) * 2022-02-28 2023-08-31 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110211637A1 (en) * 2007-11-20 2011-09-01 Ub Stream Ltd. Method and system for compressing digital video streams
CN107018422A (zh) * 2017-04-27 2017-08-04 四川大学 基于深度卷积神经网络的静止图像压缩方法
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
WO2019009447A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
TW201924342A (zh) * 2017-10-12 2019-06-16 聯發科技股份有限公司 用於視訊編碼的神經網絡方法和裝置
CN110472483A (zh) * 2019-07-02 2019-11-19 五邑大学 一种面向sar图像的小样本语义特征增强的方法及装置
CN110753225A (zh) * 2019-11-01 2020-02-04 合肥图鸭信息科技有限公司 一种视频压缩方法、装置及终端设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110211637A1 (en) * 2007-11-20 2011-09-01 Ub Stream Ltd. Method and system for compressing digital video streams
CN107018422A (zh) * 2017-04-27 2017-08-04 四川大学 基于深度卷积神经网络的静止图像压缩方法
WO2019009447A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
TW201924342A (zh) * 2017-10-12 2019-06-16 聯發科技股份有限公司 用於視訊編碼的神經網絡方法和裝置
CN111133756A (zh) * 2017-10-12 2020-05-08 联发科技股份有限公司 用于视频编码的神经网络方法和装置
CN110472483A (zh) * 2019-07-02 2019-11-19 五邑大学 一种面向sar图像的小样本语义特征增强的方法及装置
CN110753225A (zh) * 2019-11-01 2020-02-04 合肥图鸭信息科技有限公司 一种视频压缩方法、装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TONG CHEN: "DEEPCODER: A Deep Neural Network based Video Compression", 《IEEE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022194137A1 (zh) * 2021-03-17 2022-09-22 华为技术有限公司 视频图像的编解码方法及相关设备
WO2023160717A1 (en) * 2022-02-28 2023-08-31 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing

Also Published As

Publication number Publication date
CN111432211B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN111246206B (zh) 一种基于自编码器的光流信息压缩方法及装置
CN100403801C (zh) 一种基于上下文的自适应熵编/解码方法
US20200160565A1 (en) Methods And Apparatuses For Learned Image Compression
CN110248190B (zh) 一种基于压缩感知的多层残差系数图像编码方法
CN111432211B (zh) 一种用于视频编码的残差信息压缩方法
CN103067022A (zh) 一种整型数据无损压缩方法、解压缩方法及装置
CN103188494A (zh) 跳过离散余弦变换对深度图像编码/解码的设备和方法
CN113747163B (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
CN110930408A (zh) 基于知识重组的语义图像压缩方法
CN110677624B (zh) 基于深度学习的面向监控视频的前景和背景并行压缩方法
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
Karthikeyan et al. An efficient image compression method by using optimized discrete wavelet transform and Huffman encoder
Kabir et al. Edge-based transformation and entropy coding for lossless image compression
CN111080729B (zh) 基于Attention机制的训练图片压缩网络的构建方法及***
CN111343458B (zh) 一种基于重建残差的稀疏灰度图像编解码方法及***
CN112887722A (zh) 一种图像无损压缩方法
Shah et al. Vector quantization with codebook and index compression
CN112950729A (zh) 一种基于自编码器和熵编码的图像压缩方法
CN111263163A (zh) 一种基于手机平台的深度视频压缩框架的实现方法
CN110191341A (zh) 一种深度数据的编码方法和解码方法
CN109218726B (zh) 激光诱导击穿光谱图像有损无损联合压缩方法
CN115150628B (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法
Amin et al. Vector quantization based lossy image compression using wavelets–a review
CN117915107B (zh) 图像压缩***、图像压缩方法、存储介质与芯片
CN111565317A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211026

Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province

Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant