CN111163320A - 一种视频压缩方法及*** - Google Patents

一种视频压缩方法及*** Download PDF

Info

Publication number
CN111163320A
CN111163320A CN201811350985.5A CN201811350985A CN111163320A CN 111163320 A CN111163320 A CN 111163320A CN 201811350985 A CN201811350985 A CN 201811350985A CN 111163320 A CN111163320 A CN 111163320A
Authority
CN
China
Prior art keywords
network
image
code rate
features
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811350985.5A
Other languages
English (en)
Inventor
武祥吉
周雷
武俊敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Tucodec Information Technology Co ltd
Original Assignee
Hefei Tucodec Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Tucodec Information Technology Co ltd filed Critical Hefei Tucodec Information Technology Co ltd
Priority to CN201811350985.5A priority Critical patent/CN111163320A/zh
Publication of CN111163320A publication Critical patent/CN111163320A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明实施例提供了一种视频压缩方法及***,所述方法包括:基于预测网络中的分离卷积单元,根据前一帧和当前帧计算运动向量;基于所述预测网络,根据所述前一帧和所述运动向量对当前帧进行预测,得到预测帧;计算所述当前帧和所述预测帧的残差;根据残差网络对所述残差进行压缩,得到残差压缩;基于视频压缩网络,根据所述残差压缩和所述预测帧对所述当前帧进行压缩,该方法压缩效果更好并易于实现、扩展性强。

Description

一种视频压缩方法及***
技术领域
本发明涉及视频压缩领域,特别涉及一种视频压缩方法及***。
背景技术
目前的视频压缩方法在发展上遇到瓶颈,且复杂度越来越高,并不能很好得利用GPU硬件加速性能,在CPU上也难以优化。
发明内容
为了解决上述问题,本发明实施例提供了一种视频压缩方法。
根据本发明的第一方面,提供了一种视频压缩方法,包括:
基于预测网络中的分离卷积网络,根据前一帧和当前帧计算运动向量;
基于所述预测网络,根据所述前一帧和所述运动向量对当前帧进行预测,得到预测帧;
计算所述当前帧和所述预测帧的残差;
根据残差网络对所述残差进行压缩,得到残差压缩;
基于视频压缩网络,根据所述残差压缩和所述预测帧对所述当前帧进行压缩。
进一步地,所述残差网络的训练方法包括:
通过特征提取网络提取训练图像的特征;
根据概率模型对所述特征进行估计,得到码率估计结果;
将所述特征输入解码网络,得到重建图;
将所述重建图与所述训练图像进行比较,并根据所述码率估计得到率-失真优化结果;
根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
进一步地,所述通过特征提取网络提取训练图像的特征包括:
通过特征提取网络进行图像特征的映射,得到所述训练图像的特征,其中,所述特征提取网络为自编码网络。
进一步地,所述根据概率模型对所述特征进行估计,得到码率估计结果包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
进一步地,所述将所述特征输入解码网络,得到重建图包括:
根据自解码网络,对所述特征进行解码,得到重建图;
进一步地,所述将所述重建图与所述训练图像进行比较,并根据所述码率估计得到率-失真优化结果包括:
将所述重建图和所述训练图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
进一步地,所述自编码网络和自解码网络为多层卷积神经网络,其中所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。
进一步地,在所述将所述特征输入解码网络,得到重建图之前,还包括:
对所述特征进行量化,得到量化后的特征。
根据本发明的第二方面,提供了一种视频压缩***,其特征在于,包括:
获取装置,用于获取前一帧和当前帧;
压缩装置,用于根据预测网络、残差网络以及视频压缩网络对所述视频进行压缩,得到压缩后的视频;
训练装置,用于对所述预测网络、残差网络以及视频压缩网络进行训练。
进一步地,所述训练装置包括:
提取单元,用于通过特征提取网络提取图像的特征;
估计单元,用于根据概率模型对所述特征进行估计,得到码率估计结果;
解码单元,用于将所述特征输入解码网络,得到重建图;
比较单元,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果;
调整单元,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
本发明实施例提供一种视频压缩方法及***,具有法压缩效果更好并易于实现、扩展性强的优点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的方法流程图;
图2是本发明实施例提供的模型训练方法流程图;
图3是是本发明实施例提供的模型训练方法流程图;
图4是本发明实施例提供的模型训练示意图;
图5是本发明实施例提供的模型训练示意图;
图6是本发明实施例提供的模型训练示意图;
图7是本发明实施例提供的装置示意图;
图8是本发明实施例提供的模型训练装置示意图;
图9是本发明实施例提供的装置示意图;
图10是本发明实施例提供的模型训练装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里需要指出的是本发明中的前一帧和当前帧是相对的,并且在下面的描述中为了简便起见,通常用I帧来表示前一帧,P帧来表示当前帧,因为前一帧和当前帧是相对的,所以对于上述P帧的下一帧来说,该P帧即为I帧,并且对于视频的第一个I帧来说,可以对该I帧采用如实施例二、三中所述的残差网络进行压缩,得到压缩后的I帧。
实施例一
本发明实施例提供了一种视频压缩方法,如图1所示,包括:
步骤102,基于预测网络中的分离卷积单元,根据前一帧和当前帧计算运动向量。
具体的,分离卷积单元设计为encoder-decoder结构,提取bottle_neck层的高维特征信息,之后对其进行量化、熵编码。Decoder阶段得到的是分离卷积kernel,运动向量MV压缩需要消耗的比特数记为bit_M。
步骤104,基于所述预测网络,根据所述前一帧和所述运动向量对当前帧进行预测,得到预测帧。
具体的,I帧中每个像素都有一个大小为[21*21]的运动kernel,对每个像素与其对应的分离卷积kernel进行卷积操作,得到预测帧P_predict,其中,预测网络的结构,量化,码率估计结构和实施例x中的描述类似,只是网络参数有所不同。
步骤106,计算所述当前帧和所述预测帧的残差。
具体的,P帧与预测帧P_predict相减便得到残差R。
步骤108,根据残差网络对所述残差进行压缩,得到残差压缩。
具体的,残差R通过自编码网络进行压缩,提取bottle_neck层的高维特征信息,然后对其进行量化、熵编码,其中,残差网络的结构,量化,码率估计结构和实施例x中的描述类似,只是网络参数有所不同。
步骤110,基于视频压缩网络,根据所述残差压缩和所述预测帧对所述当前帧进行压缩。
具体的,根据该视频压缩网络对预测准确度和压缩程度的占比,对所述残差压缩和所述预测帧进行相应的处理得到当前帧的压缩结果。
实施例二
残差网络的训练方法如图2所示,包括:
步骤202,通过特征提取网络提取图像的特征。
具体的,可以通过自编码网络提取图像的特征。
自编码网络的作用是将数据从图像空间x,转换到数据编码空间y,它包含一个编码器fe。编码器的作用是将图像像素值x转换为压缩特征y=fe(x)。
步骤204,根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
码率可用熵的结构进行建模,公式为:
Figure BSA0000173915790000051
其中,R表示码率,Q表示量化,P表示概率模型,
Figure BSA0000173915790000052
表示量化后的特征。
可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。
步骤206,将所述特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对码所述特征进行解码,得到重建图。
步骤208,将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差
Figure BSA0000173915790000061
进行表示,其中,x表示所述图像(也称为原始图像或输入图像),
Figure BSA0000173915790000062
表示重建图,或使用如MS-SSIM之类的主观失真进行计算。根据对码率和失真进行加权的损失函数R+λD对自编码压缩算法进行端到端的优化,其中R表示码率,D表示失真,λ表示权重,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
步骤210,根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,根据所述率-失真优化结果对所述特征提取网络的参数进行训练,并根据训练结果对所述参数进行优化。
进一步地,在步骤206之前,还包括:对所述压缩特征进行量化,得到量化后的压缩特征。
具体的,在训练过程中,使用加性均匀噪声设计量化器,表示方式为
Figure BSA0000173915790000063
Figure BSA0000173915790000064
其中
Figure BSA0000173915790000065
是量化后的参数,yi是编码特征,∈是随机噪声。其中变量
Figure BSA0000173915790000066
的熵能用变量yi的熵进行估计,因此在实际使用该模型的过程中,可以使用
Figure BSA0000173915790000067
作为量化操作,这样一种方式下,也能对码率进行准确的估计。
进一步地,对于预测网络中除分离卷积单元外的部分,训练方式跟上述残差网络的训练方式类似,包括:
通过特征提取网络提取训练P帧的特征;
根据概率模型对所述特征进行估计,得到码率估计结果;
将所述特征输入解码网络,得到预测P帧;
将预测P帧与训练P帧像进行比较,并根据所述码率估计得到率-失真优化结果;
根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
实施例三
残差网络的训练方法如图3所示,包括:
步骤302,通过特征提取网络提取图像的特征。
具体的,采用如图4所示的三层卷积神经网络对图像的特征进行提取,在一种可选的方式中,将每层卷积神经网络得到的结果都作为输入来计算得到最终的特征,即通过将每层卷积后得到的归一化特征再次进行卷积并作为级联的输入。
步骤304,根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
自然图像的数据分布一般被认为是符合高斯分布,所以可以采用零均值,方差表示为
Figure BSA0000173915790000071
的拉普拉斯分布
Figure BSA0000173915790000078
对特征yi的概率分布进行建模,概率的公式如下所示:
Figure BSA0000173915790000072
其中μ表示平均分布,
Figure BSA0000173915790000073
表示超参数网络的压缩特征。
进一步地,可以采用自编码网络对方差
Figure BSA0000173915790000074
进行学习,自编码网络的结构如图5所示,
Figure BSA0000173915790000075
表示压缩特征作为超参数自编码网络的输入,对标准差分布进行学习,在超参自编码网络中,变量z的表示公式为:z=he(y),其中he表示超参数学习网络的编码器,然后进行量化,量化公式为
Figure BSA0000173915790000076
然后被量化后的表示可作为附加变量进行传输。
特征的码率可用熵的结构进行建模
Figure BSA0000173915790000077
可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。
步骤306,对特征进行量化,得到量化后的特征。
具体的,包括:
在训练过程中,使用加性均匀噪声设计量化器,表示方式为
Figure BSA0000173915790000081
其中∈是随机噪声。其中变量
Figure BSA0000173915790000082
的熵能用变量
Figure BSA0000173915790000083
的熵进行估计,因此在实际使用该模型的过程中,可以使用
Figure BSA0000173915790000084
作为量化操作,这样一种方式下,也能对码率进行准确的估计。
步骤308,将量化后的特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对量化后的特征进行解码,得到重建图。
步骤310,将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差
Figure BSA0000173915790000085
进行表示,或使用如MS-SSIM之类的主观失真进行计算。对码率和失真进行加权的损失函数R+λD用以对自编码压缩算法进行端到端的优化,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
步骤312,根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,采用梯度反向传播算法对卷积神经网络的参数进行更新。
进一步地,对于预测网络中除分离卷积单元外的部分,训练方式跟上述残差网络的训练方式类似,包括:
通过特征提取网络提取训练P帧的特征;
根据概率模型对所述特征进行估计,得到码率估计结果;
将所述特征输入解码网络,得到预测P帧;
将预测P帧与训练P帧像进行比较,并根据所述码率估计得到率-失真优化结果;
根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
实施例四
本发明实施例中的视频压缩网络如图6所示,熵编码网络同样通过类似于实施例二、实施例三中方式进行训练,根据残差图像的拉普拉斯分布特性,训练对应的概率模型,预测帧P_predict,累加解码后的残差R,得到原始帧的重建帧P_recon,残差压缩需要消耗的比特数为bit_R,具体来说,使用联合损失Loss,Loss的设计由预测帧及重建帧两部分损失叠加而成,Loss=Iambda_1*loss_recon+loss_predict,Iambda_1=0.25,通过更改Iambda_1的大小,分配模型对预测和残差压缩阶段的重视程度,只约束精度损失Loss,会使模型对P帧的恢复越来越精准,但与此同时,压缩消耗的码率也会直线上升,因此需要根据不同的目的来寻求精度与压缩比的平衡,所以网络最终的Rd-loss是由两部分组成:Rd-loss=Iambda_2*Loss+Rate。其中Iambda_2是可调参数,分配网络对预测准确度和压缩程度的占比,Rate则由两部分组成:Rate=bit_M+bit_R。
实施例五
本发明实施例提供了一种视频压缩***,如图7所示,包括:
获取装置701,用于获取前一帧和当前帧。
具体的,获取装置701用于获取待压缩的视频帧。
压缩装置702,用于根据预测网络、残差网络以及视频压缩网络对所述视频进行压缩,得到压缩后的视频。
具体的,压缩装置702用于根据训练好的预测网络、残差网络以及视频压缩网络对所述视频进行压缩,得到压缩后的视频。
训练装置703,用于对所述预测网络、残差网络以及视频压缩网络进行训练。
具体的,
如图8所示,训练装置703包括:
提取单元801,用于通过特征提取网络提取图像的特征。
具体的,可以通过自编码网络提取图像的特征。
自编码网络的作用是将数据从图像空间x,转换到数据编码空间y,它包含一个编码器fe。编码器的作用是将图像像素值x转换为压缩特征y=fe(x)。
估计单元802,用于根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
码率可用熵的结构进行建模,公式为:
Figure BSA0000173915790000101
其中,R表示码率,Q表示量化,P表示概率模型,
Figure BSA0000173915790000102
表示量化后的特征。
可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。
解码单元803,用于将所述特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对特征进行解码,得到重建图。
比较单元804,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差
Figure BSA0000173915790000103
进行表示,其中,x表示所述图像(也称为原始图像或输入图像),
Figure BSA0000173915790000111
表示重建图,或使用如MS-SSIM之类的主观失真进行计算。根据对码率和失真进行加权的损失函数R+λD对自编码压缩算法进行端到端的优化,其中R表示码率,D表示失真,λ表示权重,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
调整单元805,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,根据所述率-失真优化结果对所述特征提取网络的参数进行训练,并根据训练结果对所述参数进行优化。
进一步地,还包括量化单元806,用于对特征进行量化,得到量化后的特征。
具体的,在训练过程中,使用加性均匀噪声设计量化器,表示方式为
Figure BSA0000173915790000112
Figure BSA0000173915790000113
其中
Figure BSA0000173915790000114
是量化后的参数,yi是编码特征,∈是随机噪声。其中变量
Figure BSA0000173915790000115
的熵能用变量
Figure BSA0000173915790000116
的熵进行估计,因此在实际使用该模型的过程中,可以使用
Figure BSA0000173915790000117
作为量化操作,这样一种方式下,也能对码率进行准确的估计。
实施例六
本发明实施例提供了一种视频压缩***,如图9所示,包括:
获取装置901,用于获取前一帧和当前帧。
具体的,获取装置901用于获取待压缩的视频帧。
压缩装置902,用于根据预测网络、残差网络以及视频压缩网络对所述视频进行压缩,得到压缩后的视频。
具体的,压缩装置902用于根据训练好的预测网络、残差网络以及视频压缩网络对所述视频进行压缩,得到压缩后的视频。
训练装置903,用于对所述预测网络、残差网络以及视频压缩网络进行训练。
具体的,
如图10所示,训练装置903包括:
提取单元1001,用于通过特征提取网络提取图像的特征。
具体的,采用如图4所示的三层卷积神经网络对图像的特征进行提取,在一种可选的方式中,将每层卷积神经网络得到的结果都作为输入来计算得到最终的特征,即通过将每层卷积后得到的归一化特征再次进行卷积并作为级联的输入。
量化单元1002,用于对特征进行量化,得到量化后的特征。
具体的,包括:
在训练过程中,使用加性均匀噪声设计量化器,表示方式为
Figure BSA0000173915790000121
其中∈是随机噪声。其中变量
Figure BSA0000173915790000122
的熵能用变量
Figure BSA0000173915790000123
的熵进行估计,因此在实际使用该模型的过程中,可以使用
Figure BSA0000173915790000124
作为量化操作,这样一种方式下,也能对码率进行准确的估计。
估计单元1003,用于根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
自然图像的数据分布一般被认为是符合高斯分布,所以可以采用零均值,方差表示为
Figure BSA0000173915790000125
的拉普拉斯分布
Figure BSA0000173915790000126
对特征yi的概率分布进行建模,概率的公式如下所示:
Figure BSA0000173915790000127
其中μ表示平均分布,
Figure BSA0000173915790000128
表示超参数网络的压缩特征。
进一步地,可以采用自编码网络对方差
Figure BSA0000173915790000129
进行学习,自编码网络的结构如图5所示,压缩表示
Figure BSA00001739157900001210
作为超参数自编码网络的输入,对标准差分布进行学习,在超参自编码网络中,变量z=he(y)的学习公式表示为,其中he表示超参数学习网络的编码器,然后进行量化,量化公式为
Figure BSA00001739157900001211
然后被量化后的表示可作为附加变量进行传输。
码率可用熵的结构进行建模
Figure BSA0000173915790000131
可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。
解码单元1004,用于将所述特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对量化后的特征进行解码,得到重建图。
比较单元1005,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差
Figure BSA0000173915790000132
进行表示,或使用如MS-SSIM之类的主观失真进行计算。对码率和失真进行加权的损失函数R+λD用以对自编码压缩算法进行端到端的优化,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
考虑到码率约束,可以构建一个进行码率有效分配的优化算法,目的是为码率约束的条件下,为每个图像选择最优的模型。每张图的最优配置,通过优化以下的优化问题进行选择,具体公式为:
Figure BSA0000173915790000133
其中,D表示失真,xi表示所述图像,
Figure BSA0000173915790000134
表示重建图,
Figure BSA0000173915790000135
表示第i张图选择第j个编码模型。
调整单元1006,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,采用梯度反向传播算法对卷积神经网络的参数进行更新。

Claims (10)

1.一种视频压缩方法,其特征在于,所述方法包括:
基于预测网络中的分离卷积单元,根据前一帧和当前帧计算运动向量;
基于所述预测网络,根据所述前一帧和所述运动向量对当前帧进行预测,得到预测帧;
计算所述当前帧和所述预测帧的残差;
根据残差网络对所述残差进行压缩,得到残差压缩;
基于视频压缩网络,根据所述残差压缩和所述预测帧对所述当前帧进行压缩。
2.根据权利要求1所述的方法,其特征在于,所述残差网络的训练方法包括:
通过特征提取网络提取训练图像的特征;
根据概率模型对所述特征进行估计,得到码率估计结果;
将所述特征输入解码网络,得到重建图;
将所述重建图与所述训练图像进行比较,并根据所述码率估计得到率-失真优化结果;
根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
3.根据权利要求2所述的方法,其特征在于,所述通过特征提取网络提取训练图像的特征包括:
通过特征提取网络进行图像特征的映射,得到所述训练图像的特征,其中,所述特征提取网络为自编码网络。
4.根据权利要求2所述的方法,其特征在于,所述根据概率模型对所述特征进行估计,得到码率估计结果包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
5.根据权利要求2所述的方法,其特征在于,所述将所述特征输入解码网络,得到重建图包括:
根据自解码网络,对所述特征进行解码,得到重建图;
6.根据权利要求2所述的方法,其特征在于,所述将所述重建图与所述训练图像进行比较,并根据所述码率估计得到率-失真优化结果包括:
将所述重建图和所述训练图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
7.根据权利要求6所述的方法,其特征在于,所述自编码网络和自解码网络为多层卷积神经网络,其中所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。
8.根据权利要求2-6任意一项所述的方法,其特征在于,在所述将所述特征输入解码网络,得到重建图之前,还包括:
对所述特征进行量化,得到量化后的特征。
9.一种视频压缩***,其特征在于,包括:
获取装置,用于获取前一帧和当前帧;
压缩装置,用于根据预测网络对所述视频进行压缩,得到压缩后的视频;
训练装置,用于对所述预测网络、残差网络以及视频压缩网络进行训练。
10.根据权利要求9所述的***,其特征在于,所述训练装置包括:
提取单元,用于通过特征提取网络提取图像的特征;
估计单元,用于根据概率模型对所述特征进行估计,得到码率估计结果;
解码单元,用于将所述特征输入解码网络,得到重建图;
比较单元,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果;
调整单元,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
CN201811350985.5A 2018-11-07 2018-11-07 一种视频压缩方法及*** Pending CN111163320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811350985.5A CN111163320A (zh) 2018-11-07 2018-11-07 一种视频压缩方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811350985.5A CN111163320A (zh) 2018-11-07 2018-11-07 一种视频压缩方法及***

Publications (1)

Publication Number Publication Date
CN111163320A true CN111163320A (zh) 2020-05-15

Family

ID=70555554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811350985.5A Pending CN111163320A (zh) 2018-11-07 2018-11-07 一种视频压缩方法及***

Country Status (1)

Country Link
CN (1) CN111163320A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022194137A1 (zh) * 2021-03-17 2022-09-22 华为技术有限公司 视频图像的编解码方法及相关设备
WO2024027635A1 (zh) * 2022-08-01 2024-02-08 深圳市中兴微电子技术有限公司 视频传输方法、电子设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103037219A (zh) * 2012-10-22 2013-04-10 北京航空航天大学 一种基于分形和h.264的视频压缩与解压缩方法
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
CN108307193A (zh) * 2018-02-08 2018-07-20 北京航空航天大学 一种有损压缩视频的多帧质量增强方法及装置
CN108495129A (zh) * 2018-03-22 2018-09-04 北京航空航天大学 基于深度学习方法的块分割编码复杂度优化方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103037219A (zh) * 2012-10-22 2013-04-10 北京航空航天大学 一种基于分形和h.264的视频压缩与解压缩方法
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
CN108307193A (zh) * 2018-02-08 2018-07-20 北京航空航天大学 一种有损压缩视频的多帧质量增强方法及装置
CN108495129A (zh) * 2018-03-22 2018-09-04 北京航空航天大学 基于深度学习方法的块分割编码复杂度优化方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOHANNES BALLÉ等: "End-to-end optimization of nonlinear transform codes for perceptual quality", 《2016 PICTURE CODING SYMPOSIUM (PCS)》 *
JOHANNES BALLÉ等: "end-to-end optimized image compression", 《ARXIV:1611.01704》 *
艾达等: "基于机器学习的HEVC快速帧内预测算法研究进展", 《现代电子技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022194137A1 (zh) * 2021-03-17 2022-09-22 华为技术有限公司 视频图像的编解码方法及相关设备
WO2024027635A1 (zh) * 2022-08-01 2024-02-08 深圳市中兴微电子技术有限公司 视频传输方法、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
US11153566B1 (en) Variable bit rate generative compression method based on adversarial learning
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
US9282330B1 (en) Method and apparatus for data compression using content-based features
CN101390401B (zh) 借助伪影评价的提高的图像/视频质量
CN110677651A (zh) 一种视频压缩方法
CN110248190B (zh) 一种基于压缩感知的多层残差系数图像编码方法
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
CN111163314A (zh) 一种图像压缩方法及***
Guo et al. Variable rate image compression with content adaptive optimization
CN113747163A (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
CN107113426B (zh) 使用广义图形参数执行基于图形的变换的方法和设备
CN111163320A (zh) 一种视频压缩方法及***
CN111161363A (zh) 一种图像编码模型训练方法及装置
CN110730347A (zh) 图像压缩方法、装置及电子设备
CN110677644A (zh) 一种视频编码、解码方法及视频编码帧内预测器
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
CN116634162A (zh) 率失真优化的图像压缩神经网络训练后量化方法
CN110717948A (zh) 一种图像后处理方法、***及终端设备
CN110234011B (zh) 一种视频压缩方法及***
Krivenko et al. Prediction of Introduced Distortions Parameters in Lossy Image Compression
CN111565314A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN114501034B (zh) 基于离散高斯混合超先验和Mask的图像压缩方法及介质
US20220321879A1 (en) Processing image data
CN111565317A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
US11683515B2 (en) Video compression with adaptive iterative intra-prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Patent of Hefei Tuya Information Technology Co.,Ltd. The person in charge

Document name: First notice of examination opinions

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Zhou Lei

Document name: Deemed withdrawal notice

DD01 Delivery of document by public notice
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200515

WD01 Invention patent application deemed withdrawn after publication