CN115150628A - 具有超先验引导模式预测的由粗到细深度视频编码方法 - Google Patents

具有超先验引导模式预测的由粗到细深度视频编码方法 Download PDF

Info

Publication number
CN115150628A
CN115150628A CN202210727355.5A CN202210727355A CN115150628A CN 115150628 A CN115150628 A CN 115150628A CN 202210727355 A CN202210727355 A CN 202210727355A CN 115150628 A CN115150628 A CN 115150628A
Authority
CN
China
Prior art keywords
motion
compression
features
super
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210727355.5A
Other languages
English (en)
Other versions
CN115150628B (zh
Inventor
盛律
胡智昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210727355.5A priority Critical patent/CN115150628B/zh
Priority claimed from CN202210727355.5A external-priority patent/CN115150628B/zh
Publication of CN115150628A publication Critical patent/CN115150628A/zh
Application granted granted Critical
Publication of CN115150628B publication Critical patent/CN115150628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种具有超先验引导模式预测的由粗到细深度视频编码方法,包括:先提取输入视频帧的特征,然后以粗略到精细的方式进行两次运动估计,压缩与补偿得到预测的特征,其中在精细层面上进行的运动压缩使用了超先验引导的运动压缩。得到运动补偿后的特征后,超先验引导的残差压缩会对残差信息进行压缩。最后将重建的残差特征加载回预测特征,并经过帧重建模块,最终得到了重建的视频帧。本发明能够更好的处理复杂以及运动大的场景,在极少的比特消耗的情况下提升运动补偿质量。利用超先验信息预测了运动压缩中的不同块的分辨率大小与残差压缩中的是否跳过当前块的压缩,从而极大程度上节省了运动与残差压缩中所需要的比特数。

Description

具有超先验引导模式预测的由粗到细深度视频编码方法
技术领域
本发明涉及视频压缩及深度学习技术领域,具体涉及一种具有超先验引导模式预测的由粗到细深度视频压缩编码方法。
背景技术
目前视频内容占用互联网总流量逐年递增的现象愈发凸显,这是由于视频网站流量逐年增大,支持更高的分辨率,更高的帧速率所造成的。我们日常使用的视频压缩算法大多是传统的视频压缩算法H.264与H.265。因此,在视频压缩领域中,目前急需新的基于深度学习的视频压缩***来有效减小视频序列中的冗余信息。
目前已有的基于深度学习的视频压缩算法虽然能够达到较好的视频还原效果,但是都只使用了单个尺度的运动估计与运动补偿策略,由于视频中的运动信息会非常复杂,因此,单个尺度的视频压缩对于运动大的与复杂的场景会表现不佳。此外,现有的基于深度学习的视频压缩方法无法使用模式选择策略,这也极大的限制了基于深度学习的视频压缩算法的性能。
因此,如何提供一种可以有效降低消耗比特数的同时提升压缩性能的具有超先验引导模式预测的深度视频编码方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提出一种具有超先验引导模式预测的由粗到细深度视频编码方法。
为了实现上述目的,本发明采用如下技术方案:
一种具有超先验引导模式预测的由粗到细深度视频编码方法,包括如下步骤:
S1、特征获取:获取当前待压缩的输入图像帧Xt与上一帧压缩得到的重建参考帧
Figure BSA0000276259820000011
分别提取得到输入特征Ft与参考特征
Figure BSA0000276259820000012
S2、粗略运动补偿:所述输入特征Ft与参考特征
Figure BSA0000276259820000021
经一次运动估计和一次运动压缩获得两帧之间的粗略偏移量,将所述粗略偏移量加载至所述参考特征
Figure BSA0000276259820000022
进行一次运动补偿,获得中间预测特征
Figure BSA0000276259820000023
S3、精细运动补偿:所述中间预测特征
Figure BSA0000276259820000024
和输入特征Ft再次进行二次运动估计、二次运动压缩和二次运动补偿生成最终预测特征
Figure BSA0000276259820000025
所述二次运动压缩采用超先验引导的自适应运动压缩方法,将二次运动估计所得特征的超先验信息作为输入进行分辨率模式预测,所得预测特征块引导二次运动估计所得特征在二次运动压缩中的编解码操作;
S4、残差特征压缩:输入特征Ft和最终预测特征
Figure BSA0000276259820000026
之间的残差特征Rt经超先验引导的自适应残差压缩方法进行跳过/非跳过模式预测,并跳过残差值符合设定阈值要求的特征,得到重构的残差特征
Figure BSA0000276259820000027
并加载至最终预测特征
Figure BSA0000276259820000028
生成重构特征
Figure BSA0000276259820000029
S5、将所述重构特征
Figure BSA00002762598200000210
输入至帧重构模块,生成重构帧
Figure BSA00002762598200000211
S6、重构帧
Figure BSA00002762598200000212
作为下一帧的参考帧,重复执行S1-S5的步骤直至最后一帧,得到压缩后视频。
优选的,所述S1之前还包括:当t=1,重建参考帧
Figure BSA00002762598200000213
为输入图像帧Xt经压缩算法压缩得到重建帧。
优选的,所述S2包括:
通过对输入特征Ft和参考特征
Figure BSA00002762598200000214
进行下采样操作放缩为原特征1/n大小的两个低分辨率特征;
对所述两个低分辨率特征执行运动估计和运动压缩后,进行上采样操作放缩n倍大小,进而得到两帧之间的粗略偏移量;
将所述粗略偏移量在参考特征
Figure BSA00002762598200000215
的基础上使用可变形卷积进行一次运动补偿以生成中间的预测特征
Figure BSA00002762598200000216
优选的,将经过下采样后的输入特征Ft与参考特征
Figure BSA00002762598200000217
输入至粗略运动估计网络,所述粗略运动估计网络将两个特征进行连接并传递至两个卷积层。
优选的,将运动估计后的特征输入至粗略运动压缩网络进行一次运动压缩,所述粗略运动压缩网络由运动编码网络与运动解码网络组成。
优选的,所述S3包括:
预学习基于超先验信息的预测网络,即分辨率模式预测网络,用于输出最佳块分辨率;
将需要压缩的输入特征输入运动编码器进行编码后得到运动特征Mt,运动特征Mt作为超先验网络的输入得到超先验信息;
将所述超先验信息输入分辨率模式预测网络,用于预测每一个特征块的最佳分辨率大小,得到预测后的分辨率模式;
将所述运动特征Mt输入至模式引导的平均池化层进行对应的平均池化操作,再输入至模式引导的上采样层根据超先验信息将平均池化后的特征恢复为原来的大小,作为特征
Figure BSA0000276259820000031
Figure BSA0000276259820000032
输入运动解码器进行解码得到压缩后的运动特征。
优选的,所述超先验信息包括所述运动特征Mt的均值和方差。
优选的,所述一次运动压缩、二次运动压缩模块和残差特征压缩过程中的编码后特征均被转换为比特流后进行相应解码操作。
经由上述的技术方案可知,与现有技术相比,本发明的有益效果包括:
1、本发明提出了一个由粗到细的深度视频压缩框架,其中以粗略到精细的方式进行两次运动估计,运动压缩和运动补偿,这样能够更好的处理复杂以及运动大的场景,在极少的比特消耗的情况下提升运动补偿质量。
2、本发明提出了两种超先验引导模式预测方法,以具有判别性的超先验信息作为输入来学习两种模式预测网络;利用运动与残差压缩中的超先验信息预测了运动压缩中的不同块的分辨率大小与残差压缩中的是否跳过当前块的压缩,从而极大程度上节省了运动与残差压缩中所需要的比特数。超先验引导模式预测的方法不会引入任何额外的比特成本,带来的计算成本可以忽略不计,并且可以很容易地用于预测最佳编码模式(即运动编码的最佳块分辨率模式和用于残差压缩的“跳过”与“不跳过”模式)。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图;
图1为本发明实施例提供的具有超先验引导模式预测的由粗到细深度视频编码方法的流程图;
图2为本发明实施例提供的特征提取模块与帧重建模块的网络结构示意图;
图3为本发明实施例提供的粗略运动补偿分支网络结构示意图;
图4为本发明实施例提供的精细运动补偿分支网络结构示意图;
图5为本发明实施例提供的分辨率模式预测网络中的四种基本模式与本实施例的模式预测网络示意图;
图6为本发明实施例提供的超先验引导的自适应运动压缩流程图;
图7为本发明实施例提供的Bpp-PSNR视频压缩算法性能对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1,本发明提供了一种具有超先验引导模式预测的由粗到细深度视频编码方法,按照以下过程实现的:先提取输入视频帧的特征,然后以粗略到精细的方式进行两次运动估计,压缩与补偿得到预测的特征,其中在精细层面上进行的运动压缩使用了超先验引导的运动压缩。得到运动补偿后的特征后,超先验引导的残差压缩会对残差信息进行压缩。最后将重建的残差特征加载回预测特征,并经过帧重建模块,最终得到了重建的视频帧。压缩网路中量化的特征会进行算术熵编码并储存为二进制文件。
具体执行步骤如下:
S1、特征获取:获取当前待压缩的输入图像帧Xx与上一帧压缩得到的重建参考帧
Figure BSA0000276259820000041
分别提取得到输入特征Ft与参考特征
Figure BSA0000276259820000042
S2、粗略运动补偿:输入特征Ft与参考特征
Figure BSA0000276259820000043
经一次运动估计和一次运动压缩获得两帧之间的粗略偏移量,将粗略偏移量加载至参考特征
Figure BSA0000276259820000044
进行一次运动补偿,获得中间预测特征
Figure BSA0000276259820000045
S3、精细运动补偿:中间预测特征
Figure BSA0000276259820000051
和输入特征Ft再次进行二次运动估计、二次运动压缩和二次运动补偿生成最终预测特征
Figure BSA0000276259820000052
二次运动压缩采用超先验引导的自适应运动压缩方法,将二次运动估计所得特征的超先验信息作为输入进行分辨率模式预测,所得预测特征块引导二次运动估计所得特征在二次运动压缩中的编解码操作;
S4、残差特征压缩:输入特征Ft和最终预测特征
Figure BSA0000276259820000053
之间的残差特征Rt经超先验引导的自适应残差压缩方法进行跳过/非跳过模式预测,并跳过残差值符合设定阈值要求的特征,得到重构的残差特征
Figure BSA0000276259820000054
并加载至最终预测特征
Figure BSA0000276259820000055
生成重构特征
Figure BSA0000276259820000056
S5、将重构特征
Figure BSA0000276259820000057
输入至帧重构模块,生成重构帧
Figure BSA0000276259820000058
S6、重构帧
Figure BSA0000276259820000059
作为下一帧的参考帧,重复执行S1-S5的步骤直至最后一帧,得到压缩后视频。
在一个实施例中,如图2(a)所示,特征提取模块执行视频中输入特征Ft的提取步骤,如图2(b)所示,帧重建模块执行重构特征
Figure BSA00002762598200000510
的重构步骤。图2(a)和图2(b)中的ResBlock是构成卷积神经网络ResNet的基础模块,图图2(c)所示。
在一个实施例中,将需要压缩的视频拆解为一帧帧的图像,对于第一帧,我们使用传统图像压缩算法压缩得到重建帧,对于接下来的每一帧,我们将重复采取步骤2到步骤7的方法从前到后依次压缩得到重建帧。
本实施例中,Sl之前执行第一帧重建帧的压缩过程为:当t=1,重建参考帧
Figure BSA00002762598200000511
为输入图像帧Xt经压缩算法压缩得到重建帧。
对于第t(t>=2)帧,我们从当前需要进行个压缩的输入图像帧Xt与上一帧压缩得到的重建的参考帧
Figure BSA00002762598200000512
提取输入特征Ft与参考特征
Figure BSA00002762598200000513
在一个实施例中,为了产生更准确的运动补偿结果,提出了两级的由粗略到精细的运动补偿模块。如图3所示,S2为粗略级别的运动补偿模块执行的步骤,包括:
通过对输入特征Ft和参考特征
Figure BSA00002762598200000514
进行下采样操作放缩为原特征1/n大小的两个低分辨率特征;
对两个低分辨率特征执行运动估计和运动压缩后,进行上采样操作,即进行双线性插值计算,放缩n倍大小,进而得到两帧之间的粗略偏移量;
将粗略偏移量在参考特征
Figure BSA0000276259820000061
的基础上使用可变形卷积进行一次运动补偿以生成中间的预测特征
Figure BSA0000276259820000062
由于此过程的运动压缩比特消耗不大,因此没有在粗略级别的运动补偿模块中使用自适应运动运动压缩。
本实施例中,下采样操作即通过双线性插值将特征放缩为原来的1/4长 *1/4宽的大小。上采样操作是通过双线性插值算法将特征放缩为原来的4倍长*4倍宽的大小。
在一个实施例中,将经过下采样后的输入特征Ft与参考特征
Figure BSA0000276259820000063
输入至粗略运动估计网络,粗略运动估计网络将两个特征进行连接并传递至两个卷积层。
在一个实施例中,将运动估计后的特征输入至粗略运动压缩网络进行一次运动压缩,运动压缩网络由运动编码网络与运动解码网络组成,其中运动编码网络包含四个步长为2的卷积层与四个步长为1的卷积层,运动解码网络包含四个步长为2的反卷积层与四个步长为1的卷积层。
在一个实施例中,在精细级别运动补偿模块中,基于中间的预测特征
Figure BSA0000276259820000064
和输入特征Ft,我们在精细级别再次进行运动估计、运动压缩和运动补偿三大操作,从而生成了最终的预测特征
Figure BSA0000276259820000065
如图4所示,S3为精细级别的运动补偿模块执行的步骤,其中运动估计网络与运动补偿网络与粗略级别的运动补偿模块相同。
而在精细级别的运动压缩模块中,采用了新提出的超先验引导的自适应运动压缩模块,如图6所示,超先验引导的自适应运动压缩模块具体步骤如下:
预学习基于超先验信息的预测网络,即分辨率模式预测网络,用于输出最佳块分辨率,以决定最佳的块分辨率,从而更好的对运动信息进行编码;
将需要压缩的输入特征经过四个步长为2的卷积层与四个步长为1的卷积层得到需要传输的编码后的运动特征Mt,运动特征Mt作为超先验网络的输入得到超先验信息;
将超先验信息输入分辨率模式预测网络,用于预测每一个特征块的最佳分辨率大小,得到预测后的分辨率模式,其中,如图5(a)所示,四种基础模式就是4种基础的分辨率模式,对于每一个2x2与4x4的特征块,均预测其分辨率模式(即图5a中的基础模式)。如图5b所示,对当前这个4x4的特征块,先预测4x4的特征块属于什么基础分辨率模式,当预测结果为M0(即图5a中的基础模式M0)时,就会把这个4x4的特征块分成4个2x2的子块。同时也预测每个2x2的子块的分辨率模式,并根据预测的结果选择每个块的分辨率模式(M0/M1/M2/M3);根据所得分辨率模式对每个特征块进行模式引导的平均池化操作,例如左上角2x2的块A中的每一个值(即Mt中的3,4, 4,5)会被平均池化为4,然后经过量化,熵编码后解码端得到这个4,由于在解码端也对应有每一个块的分辨率模式,那么就知道块A其实是由4个值组成,那么这里就使用模式引导的上采样将块A中的4上采样得到4个 4(即
Figure BSA0000276259820000071
左上角的红块)。
将运动特征Mt输入至模式引导的平均池化层进行对应的平均池化操作,以减少需要进行传输的运动特征的值的数量,因此能够有效的减小传输此编码后的运动特征的比特数,再输入至模式引导的上采样层根据超先验信息将平均池化后的特征恢复为原来的大小,作为特征
Figure BSA0000276259820000072
即解码端在得到了这个特征后,同样能够根据超先验信息将平均池化后的特征恢复为原来的大小。
Figure BSA0000276259820000073
输入运动解码器进行解码得到解码的精细级别的运动特征。运动解码网络包含四个步长为2的反卷积层与四个步长为1的卷积层。
本实施例中,超先验信息包括超先验网络对编码后的运动特征Mt所预测的均值和方差,是用于辅助对运动特征Mt进行算术编码与算术解码的。
在一个实施例中,残差特征Rt由超先验引导的自适应残差压缩模块进行压缩。其总体的网络结构包括残差编码网络,残差解码网络,超先验网络和分辨率模式预测网络。该总体网络结构与由超先验引导的自适应运动压缩模块 (包括运动编码网络,运动解码网络,超先验网络和分辨率模式预测网络) 基本一致,区别在于基于超先验信息,自适应残差压缩模块的预测网络不是预测每个块的最优分辨率,而是学习了对输入残差特征Rt经过残差编码网络后得到的编码后的残差特征Yt(维度为128*h*w)中的每一个需要传输的特征值(总共包含128*h*w个特征值)预测“跳过”/“非跳过”模式,如图5(c) 所示。通过传输跳过不重要的特征值以节省比特数,不重要的特征(例如残差值是0的特征,也就不包含任何信息)将不会被传输到解码端,并在解码端用0来填充这些被跳过的特征值以减小传输编码后残差特征所需的比特数,使得残差压缩网络能更好地编码残差特征。最后将重构的残差特征
Figure BSA0000276259820000081
加回最终的预测特征
Figure BSA0000276259820000082
生成重构的特征
Figure BSA0000276259820000083
在一个实施例中,精细级别运动补偿模块中的二次补偿过程为:将经超先验引导自适应压缩后得到的解压后的运动特征
Figure BSA0000276259820000084
在中间预测特征
Figure BSA0000276259820000085
的基础上使用可变形卷积进行二次运动补偿以生成最终预测特征
Figure BSA0000276259820000086
从而实现在更高的分辨率上进行补偿以得到更加准确的预测结果。
在一个实施例中,一次运动压缩、二次运动压缩模块和残差特征压缩过程中的编码后特征均被转换为比特流后进行相应解码操作。如图6所示,经过AC算术编码(arithmetic coding)之后,特征图将会被转化为比特流以传输到解码端,而解码端在接收到比特流之后,将会使用AD算术解码(arithmetic decoding)将比特流重新转化为特征图。
表1给出本实施例方法(Ours)在多个数据集上(包括HEVC ClaSS B, C,D,E,UVG与MCL-JCV)与标准参考软件H265(HM)对比的BDBR结果。表中负值表示在相同的重建质量下,能够节省百分之多少的比特数。本实施例方法对比其他的基于深度学习的视频压缩方法(FVC,ELF-VC, DCVC,FVC(re-imp))也能够达到目前最佳的性能。
表1 BDBR结果对照表
Figure BSA0000276259820000087
由于视频压缩需要考虑在不同比特率下重建的性能,因此是需要用bpp (每个像素平均所消耗的比特数,越小越好)与PSNR(表示重建质量,越大越好)来绘制出一个性能图进行比较,如图7所示。
FVC(re-imp)是我们的基线的方法,C2F是我们提出的由粗到细的视频压缩算法框架,C2F+HAMC是我们提出的由粗到细的视频压缩算法框架装备上超先验引导的自适应运动压缩算法,C2F+HAMC+HARC是我们提出的由粗到细的视频压缩算法框架装备上超先验引导的自适应运动与残差压缩算法。
结果表示,我们提出的由粗到细的视频压缩算法框架,超先验引导的分辨率自适应的运动压缩与超先验引导的跳过自适应的残差压缩均能提升现有方法的性能,证明了我们提出的算法的有效性。
在HEVC、UVG和MCL-JCV数据集上的综合实验表明,本实施例提出的由粗到细的框架配备了新提出的超先验引导模式预测方法在PSNR指标方面实现了与H265(HM)相当的视频压缩性能,并且就MS-SSIM指标而言总体上优于目前最新视频压缩标准VTM。
以上对本发明所提供的具有超先验引导模式预测的由粗到细深度视频编码方法进行了详细介绍,本实施例中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本实施例中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本实施例所示的这些实施例,而是要符合与本实施例所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,包括如下步骤:
S1、特征获取:获取当前待压缩的输入图像帧Xt与上一帧压缩得到的重建参考帧
Figure FSA0000276259810000011
分别提取得到输入特征Ft与参考特征
Figure FSA0000276259810000012
S2、粗略运动补偿:所述输入特征Ft与参考特征
Figure FSA0000276259810000013
经一次运动估计和一次运动压缩获得两帧之间的粗略偏移量,将所述粗略偏移量加载至所述参考特征
Figure FSA0000276259810000014
进行一次运动补偿,获得中间预测特征
Figure FSA0000276259810000015
S3、精细运动补偿:所述中间预测特征
Figure FSA0000276259810000016
和输入特征Ft再次进行二次运动估计、二次运动压缩和二次运动补偿生成最终预测特征
Figure FSA0000276259810000017
所述二次运动压缩采用超先验引导的自适应运动压缩方法,将二次运动估计所得特征的超先验信息作为输入进行分辨率模式预测,所得预测特征块引导二次运动估计所得特征在二次运动压缩中的编解码操作;
S4、残差特征压缩:输入特征Ft和最终预测特征
Figure FSA0000276259810000018
之间的残差特征Rt经超先验引导的自适应残差压缩方法进行跳过/非跳过模式预测,并跳过残差值符合设定阈值要求的特征,得到重构的残差特征
Figure FSA0000276259810000019
并加载至最终预测特征
Figure FSA00002762598100000110
生成重构特征
Figure FSA00002762598100000111
S5、将所述重构特征
Figure FSA00002762598100000112
输入至帧重构模块,生成重构帧
Figure FSA00002762598100000113
S6、重构帧
Figure FSA00002762598100000114
作为下一帧的参考帧,重复执行S1-S5的步骤直至最后一帧,得到压缩后视频。
2.根据权利要求1所述的具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,所述S1之前还包括:当t=1,重建参考帧
Figure FSA00002762598100000115
为输入图像帧Xt经压缩算法压缩得到重建帧。
3.根据权利要求1所述的具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,所述S2包括:
通过对输入特征Ft和参考特征
Figure FSA00002762598100000116
进行下采样操作放缩为原特征1/n大小的两个低分辨率特征;
对所述两个低分辨率特征执行运动估计和运动压缩后,进行上采样操作放缩n倍大小,进而得到两帧之间的粗略偏移量;
将所述粗略偏移量在参考特征
Figure FSA00002762598100000117
的基础上使用可变形卷积进行一次运动补偿以生成中间的预测特征
Figure FSA00002762598100000118
4.根据权利要求3所述的具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,将经过下采样后的输入特征Ft与参考特征
Figure FSA0000276259810000021
输入至粗略运动估计网络,所述粗略运动估计网络将两个特征进行连接并传递至两个卷积层。
5.根据权利要求3所述的具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,将运动估计后的特征输入至粗略运动压缩网络进行一次运动压缩,所述粗略运动压缩网络由运动编码网络与运动解码网络组成。
6.根据权利要求1所述的具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,所述S3包括:
预学习基于超先验信息的预测网络,即分辨率模式预测网络,用于输出最佳块分辨率;
将需要压缩的输入特征输入运动编码器进行编码后得到运动特征Mt,运动特征Mt作为超先验网络的输入得到超先验信息;
将所述超先验信息输入分辨率模式预测网络,用于预测每一个特征块的最佳分辨率大小,得到预测后的分辨率模式;
将所述运动特征Mt输入至模式引导的平均池化层进行对应的平均池化操作,再输入至模式引导的上采样层根据超先验信息将平均池化后的特征恢复为原来的大小,作为特征
Figure FSA0000276259810000022
Figure FSA0000276259810000023
输入运动解码器进行解码得到压缩后的运动特征。
7.根据权利要求6所述的具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,所述超先验信息包括所述运动特征Mt的均值和方差。
8.根据权利要求1所述的具有超先验引导模式预测的由粗到细深度视频编码方法,其特征在于,所述一次运动压缩、二次运动压缩模块和残差特征压缩过程中的编码后特征均被转换为比特流后进行相应解码操作。
CN202210727355.5A 2022-05-31 具有超先验引导模式预测的由粗到细深度视频编码方法 Active CN115150628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210727355.5A CN115150628B (zh) 2022-05-31 具有超先验引导模式预测的由粗到细深度视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210727355.5A CN115150628B (zh) 2022-05-31 具有超先验引导模式预测的由粗到细深度视频编码方法

Publications (2)

Publication Number Publication Date
CN115150628A true CN115150628A (zh) 2022-10-04
CN115150628B CN115150628B (zh) 2024-07-26

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116437089A (zh) * 2023-06-08 2023-07-14 北京交通大学 一种基于关键目标的深度视频压缩算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160565A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods And Apparatuses For Learned Image Compression
CN112203093A (zh) * 2020-10-12 2021-01-08 苏州天必佑科技有限公司 一种基于深度神经网络的信号处理方法
CN113298894A (zh) * 2021-05-19 2021-08-24 北京航空航天大学 一种基于深度学习特征空间的视频压缩方法
CN114501013A (zh) * 2022-01-14 2022-05-13 上海交通大学 一种可变码率视频压缩方法、***、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160565A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods And Apparatuses For Learned Image Compression
CN112203093A (zh) * 2020-10-12 2021-01-08 苏州天必佑科技有限公司 一种基于深度神经网络的信号处理方法
CN113298894A (zh) * 2021-05-19 2021-08-24 北京航空航天大学 一种基于深度学习特征空间的视频压缩方法
CN114501013A (zh) * 2022-01-14 2022-05-13 上海交通大学 一种可变码率视频压缩方法、***、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马思伟: "智能视频编码", 人工智能, 10 April 2020 (2020-04-10) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116437089A (zh) * 2023-06-08 2023-07-14 北京交通大学 一种基于关键目标的深度视频压缩算法
CN116437089B (zh) * 2023-06-08 2023-09-05 北京交通大学 一种基于关键目标的深度视频压缩方法

Similar Documents

Publication Publication Date Title
CN110087092B (zh) 基于图像重构卷积神经网络的低码率视频编解码方法
CN103607591A (zh) 结合超分辨率重建的图像压缩方法
EP2168382B1 (en) Method for processing images and the corresponding electronic device
CN107454412B (zh) 一种视频图像的处理方法、装置及***
CN102217314A (zh) 用于视频图像删减的方法和装置
CN112203093A (zh) 一种基于深度神经网络的信号处理方法
CN111726614A (zh) 一种基于空域下采样与深度学习重建的hevc编码优化方法
CN105392009A (zh) 基于块自适应采样和超分辨率重建的低码率图像编码方法
US20170223381A1 (en) Image coding and decoding methods and apparatuses
CN109922339A (zh) 结合多采样率下采样和超分辨率重建技术的图像编码框架
CN111669588B (zh) 一种超低时延的超高清视频压缩编解码方法
CN113298894A (zh) 一种基于深度学习特征空间的视频压缩方法
Fu et al. An extended hybrid image compression based on soft-to-hard quantification
CN114245989A (zh) 编码器和编码帧序列的方法
KR100679027B1 (ko) Dc 성분의 손실 없이 영상을 코딩하는 방법 및 장치
CN104581173A (zh) 软解码验证模型平台
CN112001854A (zh) 一种编码图像的修复方法及相关***和装置
CN115150628A (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法
CN115150628B (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法
JP4762486B2 (ja) マルチ・リゾルーション・ビデオ符号化および復号化
CN115643406A (zh) 视频解码方法、视频编码方法、装置、存储介质及设备
Peng et al. An optimized algorithm based on generalized difference expansion method used for HEVC reversible video information hiding
CN109218726B (zh) 激光诱导击穿光谱图像有损无损联合压缩方法
US6125211A (en) Progressive image transmission
CN114900693B (zh) 一种基于方块截短编码的图像压缩方法、解压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant