CN104539961B

CN104539961B - 基于分层结构渐进式字典学习的可分级视频编码***

Info

Publication number: CN104539961B
Application number: CN201410768645.XA
Authority: CN
Inventors: 熊红凯; 唐欣
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2017-12-15
Anticipated expiration: 2034-12-12
Also published as: CN104539961A

Abstract

本发明提供了一种基于分层结构渐进式字典学习的可分级视频编码***，所述***包括：基于层次化结构的***框架、渐进式字典学习模块以及可分级视频帧重构模块。本发明所述***通过可分级B帧预测的结构使得重构帧作为更精细层的参考帧加入字典训练中，同时随机梯度下降法降低了基于学习的超分辨率算法的复杂度；本发明能够有效地保持视频帧运动的一致性，同时空间和质量可分级也可基于该层次化结构的***框架中。

Description

基于分层结构渐进式字典学习的可分级视频编码***

技术领域

本发明涉及可分级视频编码方案，具体地，涉及一种基于分层结构渐进式字典学习的可分级视频编码***。

背景技术

为了自适应的满足不同传输特性的异构网络上的视频传输要求和不同客户端的应用要求，可分级视频编码受到了广泛的关注。可分级视频编码的目的在于保持与现有框架编码每个子视频流相同的复杂度和重构质量的同时，去除多层视频流之间的时间、空间、质量冗余度。去除冗余的时间信息本质在于基于有限的先验信息有效地预测一组视频帧(GOP)内的连续帧。近几年热门的超分辨率重构技术证明了字典学习算法能够有效地通过非参数的方式对稀疏采样的低分辨率图像和高分辨率图像之间的相关性进行估计，得到对非参考帧更精细和稀疏的表达，同时避免了过拟合。

经过对现有技术的文献检索发现，现有的两个主流的可分级视频编码方案为德国Heinrich-Hertz Institute(HHI)Schwarz,H.Marpe,D.Wiegand,T.在2007年的《IEEETransactions on Circuits and Systems for Video Technology》(TCSVT)期刊上发表的“Overview of the Scalable Video Coding Extension of the H.264/AVCStandard”一文中提出的基于H.264的编码方案，以及G.J.Sullivan,J.M.Boyce,C.Ying,J-R.Ohm,C.A.Segall,A.Vetro在2013年的《IEEE Journal of Selected Topics in SignalProcessing》期刊上发表的基于HEVC的可分级视频编码框架“Standardized Extensionsof High Efficiency Video Coding(HEVC)”。为了实现H.264/SVC的时间可分级，H.264/AVC的MCTF扩展框架在运动估计更新操作过程中在原始参考帧加上平移和伸缩后的预测误差。然而与传统的混合编码框架相比，加入的运动估计更新操作增加了应用复杂度以及降低了编码效率。同时，由于MCTF的开环编码控制***，参考信号无法被补偿以至于量化误差累积。因此，传统基于DCT的混合编码方案利用可分级B帧的闭环控制来解决MCTF量化误差累积的问题。在可分级B帧预测结构中，粗糙层中的B帧将会作为精细层的参考帧用于精细层B帧的预测。然而，虽然不再需要多余的运动补偿更新操作，可分级B帧需要更多的空间来保存B帧，导致了更高的编码延迟。同时，快速运动的物体会在编码端导致很高的计算复杂度，并且无法由参考帧的原始块来稀疏地表示。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于分层结构渐进式字典学习的可分级视频编码***，可以有效提高视频信号编码效率以及重构***的主客观质量，并可作为一种通用的可分级视频编码框架。

为实现以上目的，本发明提供一种基于分层结构渐进式字典学习的可分级视频编码***，包括：基于层次化结构的***框架、渐进式字典学习模块以及可分级视频帧重构模块，其中：

所述基于层次化结构的***框架，在时间域采用可分级B帧预测结构，利用帧间的时间冗余信息，对下采样后的非参考帧依次通过时空学习字典超分辨率重建，其中T_i为第i层视频流，将作为参考帧对更精细层T_i+1的视频帧进行恢复；

所述渐进式字典学习模块，将前一层训练出的时空字典作为初始字典，提取重构得到的可分级B帧图像中对应的原始高分辨率图像帧和其下采样后的低分辨率图像帧所提取的三维视频块生成训练集，利用随机梯度下降法优化学习出该层的子字典基；

所述可分级视频帧重构模块，对非参考视频帧进行基于学习的超分辨率重建算法构造出不同时间层次的原始高分辨率图像，基于时空字典学习的考虑，每次重构同时恢复连续的两帧，进行重排列后实现时间可分级视频编码。

优选地，所述的基于层次化结构的***框架实现基于可分级B帧预测结构，基本层的视频帧由原始视频流中的一组图像帧(GOP)前两帧构成，将原始高分辨率图像帧和其下采样后的低分辨率图像帧作为参考帧沿着运动估计方向提取三维视频块，其中，时间维度上由两帧图像组成，由三维视频块所组成的训练集用于学习时空字典集以达到重建下一层增强层图像帧的目的。

更优选地，所述的基于层次化结构的***框架基于渐进式学习的可分级B帧预测结构，由上层增强层重构出的非参考帧将作为下一层精细层的参考帧，通过可分级B帧预测，时空字典学习算法，超分辨率重建对整个重构增强层进行操作来实现。

优选地，所述的渐进式字典学习模块实现由随机梯度下降法实现稀疏表示误差的最小化，能够适应性的表示出三维(时间-空间)信号的内在结构，相对于固定基能更有效地稀疏表示视频信号，这种在过完备学习字典基矩阵上的稀疏表示是具有结构化稀疏的；同时随机梯度下降法在每一次迭代中仅基于当前训练块最小化代价函数，能实时地接受提取的训练块进行学习，通过提取重构所得图像帧的训练块，字典学习的先验知识增加，能够更稀疏地表达当前视频信号。

更优选地，所述的可分级视频帧重构通过一种凸松弛算法模型实现，通过稀疏编码技术计算出样本块在低频字典上最优的稀疏表示系数，乘以对应高频子字典基，得到丢失的高频信息，实现图像帧的重建；因重建顺序和视频播放的时间顺序独立，因此通过重新排列得到不同层的视频流。

本发明所述***为视频信号的可分级编码压缩提供了通用的解决方案。本发明所使用的基于层次化结构的***框架基于渐进式字典学习的可分级B帧预测结构，既弥补了MCTF框架量化误差积累的缺陷，又通过字典学习算法自适应地得到过完备字典基，能够得到视频信号更精细和稀疏的表达，同时基本层由原始分辨率编解码组成，保证了低码率传输中基本层的视频质量，增强层的可分级B帧的重建基于传输的下采样视频图像以及前一层B帧训练所得字典基，利用了视频流层间的时间冗余性同时降低了编码复杂度；另一方面，鉴于随机梯度下降法可以实时地接受训练样本进行学习更新，本发明通过随机梯度下降法的方法对每层重建的B帧所提取的训练集进行学习，得到相应的基渐进式自适应地获得更多该视频流的先验知识，这样能够使得帧块信号具有适应性稀疏表示，并且该稀疏表示具有结构性，进而提高视频中自然信号的表示精确性，还能加速凸松弛重构算法的收敛及稳定性，有助于本发明可分级视频编码的性能及实用性的提升。

与现有技术相比，本发明具有如下的有益效果：

本发明大大提高了重构性能，与传统的可分级B帧预测结构或者基于学习的超分辨率重建的视频压缩传感***相比，由于本发明的重构采用的是适应性的全局最优的基，因此在重构效果上均能够得到增强，同时渐进式学习实现了时间可分级；对于空间、质量可分级实现，本发明通过适当的修改也可实现，具有较强的适应性；在重建时由于渐进式学习字典基的特殊构造，使得信号具有结构性的稀疏表示，因此本发明在相同的编码速率的情况下可以进一步提高重构质量，同时也具备良好的可扩展性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的基于分层结构渐进式字典学习的可分级视频编码***框图；

图2为本发明一实施例的基于可分级B帧预测结构的渐进式字典学习的流程框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1、2所示，本实施例提供一种基于分层结构渐进式字典学习的可分级视频编码***，包括：基于层次化结构的***框架，渐进式字典学习模块以及可分级视频帧重构模块；其中：

所述的基于层次化结构的***框架在时间域采用可分级B帧预测结构，利用帧间的时间冗余信息，对下采样后的非参考帧将依次通过时空学习字典超分辨率重建；如图1中所示，T_i为第i层视频流，将作为参考帧对更精细层T_i+1的视频帧进行恢复；

所述的渐进式字典学习模块将前一层训练出的时空字典作为初始字典，提取重构得到的可分级B帧图像中对应的高分辨率和低分辨率的基元块，生成训练集，利用随机梯度下降法优化学习出该层的子字典基；

所述的可分级视频帧重构模块对非参考视频帧进行基于学习的超分辨率重建算法构造出不同时间层次的高分辨率图像，基于时空字典学习的考虑，每次重构同时恢复连续的两帧，进行重排列后实现时间可分级视频编码。

本实施例中，所述的渐进式字典学习模块实现由随机梯度下降法实现稀疏表示误差的最小化，它能够适应性的表示出高维信号的内在结构，相对于固定基能更有效地稀疏表示视频信号，这种在过完备学习字典基矩阵上的稀疏表示是具有结构化稀疏的。同时随机梯度下降法在每一次迭代中仅基于当前训练块最小化代价函数，因此可以实时地接受提取的训练块进行学习，通过提取重构所得图像帧的训练块，字典学习的先验知识增加，能够更稀疏地表达当前视频信号。

本实施例中，所述的基于层次化结构的***框架如图1所示，为了平衡编码复杂度和效率，视频流以16帧为一组进行编码。在编码端，每个帧组的前两帧将作为I帧以原始分辨率图像由标准视频编解码器进行传输，对其余的14帧进行下采样作为低分辨率图像进行编码传输。在解码端，初始字典D₀由I帧训练所得，为保持视频的运动一致性，引入沿着运动轨迹方向提取三维块作为训练集。B帧将由上一级参考帧超分辨率重建所得，而重建后的B帧将作为本层的参考帧参与到下一层B帧的重建中。由于解码顺序与视频帧时间顺序相互独立，采用图1中缩略图所示方法对视频帧进行重构，其中时间层T₀,T₁,…T_k中包含的图像帧独立于层T_i,i＞k编码。层编号上的数字代表着编码顺序而帧以时间顺序排列。箭头指向为B帧重建所用参考帧。

本实施例中，所述渐进式字典学习模块为了保持训练块的三维结构，每次预测以两帧图像帧为一组进行重构，连接两帧同一位置所提取的基元块，得到了时空字典的训练集。同时字典学习的目的是基于已知的前一层的先验信息以及参考帧的训练集，得到每一层的高-低分辨率子带的映射关系，自适应地学习到一个有效的完备字典基，能够在可接受的误差内稀疏的表示图像视频块，最小化期望代价：

其中，为解码的低分辨率帧，为时间层T_k的低频字典基，α为训练集的视频块在上的稀疏表示系数矩阵，x_i为从中提取的第i个训练视频块，α_i为对应x_i的稀疏表示系数，λ为正则化系数。式中第一项为低频字典表示误差二范式值的平方，为了约束表示系数的稀疏性，代价函数的第二项为表示系数的一范式值。由于随机梯度下降法通过在每次迭代中随机选择一个样本块来优化近似期望代价函数，因此可以实时地接受训练样本进行训练。利用这样的特点，对于每一层时空字典，基于随机梯度下降法更新字典原子其中，D_t为第t次迭代生成的学习字典，x_t为随机选择的训练样本，φ_t为学习率，为关于代价函数l(x_t，D_t)对D求偏导，降低了计算复杂度和空间占用率，同时可以证明在样本数足够大的情况下近似期望代价函数收敛到0。其稀疏编码算法由LARS算法实现，字典原子更新过程由块坐标梯度下降法(block-coordinate gradientdescent)实现。

如图2所示，渐进式字典学习模块的渐进式字典学习由每层的参考帧训练得到时空字典基用于非参考帧的超分辨率重建。由于下采样所得的高-低频图像具有线性映射关系，在构造字典时考虑对应坐标位置的高-低频图像块能够用基于字典对上相同的稀疏表示来进行逼近。因此通过对低频子带的训练集进行学习，得到低频字典基以及训练集在其上最优的l₁范数最小的稀疏表示系数α_L，通过凸松弛算法模型，用对应的训练集乘以α_L得到对应各增强层上的过完备字典基。

本实施例中，所述可分级视频帧重构模块是通过一种凸松弛算法模型实现的，由于学习到的高-低分辨率映射关系，在恢复非参考帧的高频信息时通过基于字典对上相同的稀疏表示关系来得到。具体为：对于截取基元区域的图像块，用正交匹配追踪(OMP)算法得到基元区域的图像块在学习所得的低频字典基上的l₁范数最小的最优稀疏表示系数与高频子字典相乘得到高频信息，实现图像帧的重建，根据网络情况及用户需求，渐进地预测出增强层的图像帧。又因重建顺序和视频播放的时间顺序独立，因此通过重新排列得到不同层的视频流，实现可分级视频编码的目的。

本发明上述实施例中没有特别说明的部分，可以采用现有技术来实现。

实施效果：

本实施例中关键参数的设置为：

实验用视频序列来源于foreman_cif.yuv，akiyo.yuv，news.yuv，waterfall.yuv(352x288的4:2:0格式的YUV文件)，总共取48帧；每16帧为一个帧组，选取每帧组的前两帧和下一帧组的前两帧为关键帧，本帧组的剩余14帧为非关键帧，块的尺寸选取为7×7×2像素；由于信号的灰度图集中了绝大部分能量，测试主要是在灰度图上完成的，因此比较所提出的H.264/AVC的无可分级B帧结构“IPPP”和引入可分级B帧“IBPBP”的编码方法；实验用在线字典学习方法选取下采样率为2，迭代次数为100次；对于一个帧组来说，基本层由第1，2帧构成，第一层增强层由第1，2，9，10帧构成，第二层增强层由第1，2，5，6，9，10，13，14帧构成，第三层增强层由全部16帧帧组重构所得。

与H.264/SVC相比：

foreman.yuv在码率为201.5kbps时，本实施例所述***较“IPPP”编码获得平均0.5dB左右的重构增益，较“IBPBP”编码获得平均0.3dB左右的重构增益；

akiyo.yuv在码率为204.5kbps时，本实施例所述***较“IPPP”编码获得平均0.4dB左右的重构增益，较“IBPBP”编码获得平均0.2dB左右的重构增益；

news.yuv在码率为248.8kbps时，本实施例所述***较“IPPP”编码获得平均0.5dB左右的重构增益，较“IBPBP”编码获得平均0.2dB左右的重构增益；

waterfall.yuv在码率为213.9kbps时，本实施例所述***较“IPPP”编码获得平均0.6dB左右的重构增益，较“IBPBP”编码获得平均0.2dB左右的重构增益。

上述实验表明，本实施例所述的基于分层结构渐进式字典学习的可分级视频编码***重建出来的视频序列在重构质量上优于H.264/AVC的非B帧预测结构和引入B帧预测结构得到的视频序列。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于分层结构渐进式字典学习的可分级视频编码***，其特征在于，包括：基于层次化结构的***框架、渐进式字典学习模块以及可分级视频帧重构模块，其中：

所述渐进式字典学习模块，将前一层训练出的时空字典作为初始字典，提取重构得到的可分级B帧图像中对应的原始高分辨率图像帧和其下采样后的低分辨率图像帧所提取的三维视频块生成训练集，利用随机梯度下降法优化学习出当前层的子字典基；

2.根据权利要求1所述的一种基于分层结构渐进式字典学习的可分级视频编码***，其特征在于，所述的基于层次化结构的***框架实现基于可分级B帧预测结构，基本层的视频帧由原始视频流中的一组图像帧GOP前两帧构成，将原始高分辨率图像帧和其下采样后的低分辨率图像帧作为参考帧沿着运动估计方向提取三维视频块，其中，时间维度上由两帧图像组成，由三维视频块所组成的训练集用于学习时空字典集以达到重建下一层增强层图像帧的目的。

3.根据权利要求2所述的一种基于分层结构渐进式字典学习的可分级视频编码***，其特征在于，所述的基于层次化结构的***框架，该框架基于渐进式学习的可分级B帧预测结构，由上层增强层重构出的非参考帧作为下一层精细层的参考帧，通过可分级B帧预测、时空字典学习算法、超分辨率重建对整个重构增强层进行操作来实现。

4.根据权利要求1-3任一项所述的一种基于分层结构渐进式字典学习的可分级视频编码***，其特征在于，所述的渐进式字典学习模块实现由随机梯度下降法实现稀疏表示误差的最小化，能够适应性的表示出三维信号的内在结构，相对于固定基能更有效地稀疏表示视频信号，这种在过完备学习字典基矩阵上的稀疏表示是具有结构化稀疏的；同时随机梯度下降法在每一次迭代中仅基于当前训练块最小化代价函数，能实时地接受提取的训练块进行学习，通过提取重构所得图像帧的训练块，字典学习的先验知识增加，能够更稀疏地表达当前视频信号。

5.根据权利要求4所述的一种基于分层结构渐进式字典学习的可分级视频编码***，其特征在于，所述的可分级视频帧重构通过一种凸松弛算法模型实现，通过稀疏编码技术计算出样本块在低频字典上最优的稀疏表示系数，乘以对应高频子字典基，得到丢失的高频信息，实现图像帧的重建；因重建顺序和视频播放的时间顺序独立，因此通过重新排列得到不同层的视频流。