CN110035285B

CN110035285B - 基于运动矢量敏感度的深度预测方法

Info

Publication number: CN110035285B
Application number: CN201910313621.8A
Authority: CN
Inventors: 张昊; 李�诚; 周搏; 王剑光; 牟凡; 马学睿; 杜忠泽; 江滔
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2023-01-06
Anticipated expiration: 2039-04-18
Also published as: CN110035285A

Abstract

本发明提供了基于运动矢量敏感度的深度预测方法。本发明的方法与原始x265比较，编码时间相比x265的算法可以减少编码器编码时长17.56％，而BDBR仅增加了约1.75％，BDPSNR减少了0.05dB，本发明的方法在视频质量不降低的前提下，优化了预测单元模式选择的过程，有效提高了编码速度。在减少了编码算法复杂度的同时，以较小的质量损失实现了大幅提升视频编码速度，在视频编码领域具有良好的实用性。

Description

基于运动矢量敏感度的深度预测方法

技术领域

本发明属于视频编码解码技术领域，具体涉及基于运动矢量敏感度的深度预测方法。

背景技术

连续的视频图像之间存在相关性，即存在信息冗余，如果能够将冗余信息消除，就能大幅降低视频信号的数据量，进而实现视频数据的压缩。同一幅图像的物体和背景等区域存在相关性，即空间冗余。相同的场景下，相邻视频图像纹理和内容变动较小，这种图像之间的相似称为时间冗余。信息论中，根据像素的信息熵分配具体的比特数，从而表示该像素携带的信息量，然而在实际的图像中，很难直观的获取每个像素点的信息熵，一般都是用相等的比特数来表示所有的像素点，如8bits图像即每个像素点用8个比特位表示，对于像素值比较小的位置，这种表示方法就会存在信息熵冗余。

视频编码，就是指通过一些压缩的手段，将视频信号的文件转换成另一种文件格式，从而使得在信号传输过程中，减少带宽的使用，使其高效的传播。由于未经处理的原始视频信号所携带的信息量很大，对实际的传输和存储***要求比较高，因此原始的视频信号必须经过压缩和处理才能出现在人们的实际生活中。

高效率视频编码(High Efficiency Video Coding，简称HEVC)是一种新的视频压缩标准。HEVC在性能上相较于H.264更加优秀，在同等视频质量下其压缩率可达到H.264的2倍。电影、动画片等视频经HEVC视频压缩后，手机用户观看在线视频不仅流量耗费大大减少，且下载速度会更快，画质基本不会受到影响，即使在线观看也会更流畅，不易卡机。HEVC编码标准中，为了提高压缩比，一幅输入图像首先被划分为预定义大小的图像块，简称编码树单元(Coding Tree Unit，简称CTU)。每个CTU可以由几个编码单元(Coding Unit，简称CU)组成，CU存在8×8、16×16、32×32、64×64的亮度样本和对应色度样本，颜色是由亮度和色度共同表示的。CU还可以分解为更小的预测单元(Prediction Unit，简称PU)和变换单元(Trasform Unit，简称TU)，使编码、预测和变换得到更好的处理。HEVC模式选择的耗时占整个编码时间的60～70％。HEVC的帧内模式选择方向由H.264/AVC的9种模式扩展为35种。同时HEVC还引入了高级运动向量预测(Advance Motion Vector Prediction，简称AMVP)、Merge模式及基于Merge模式的Skip模式、样点自适应补偿(Sample Adaptive Offset，简称SAO)等技术。HEVC编码标准中，一个编码树单元可以由几层编码单元组成，每层编码单元又可以分成多个编码子单元。因此，在进行模式选择时，需要遍历多达85个编码单元。每个编码单元都有多个帧间和帧内预测模式，并要对每种模式进行变换和量化操作，计算每步操作的率失true代价，这个过程的计算量非常大。视频编码的根本是为了减少单位耗材内的比特数，把多余的信息摘除掉。目前，视频编码研究人员主要使用三种高性能模型：网络失true方式、基于全局的运动估计法和高阶块匹配法。

网络失true方法所采取的措施是匹配网络，它将预测帧分成小格栅组，然后通过移动网格检查点使图像失true。以这种方式，可以实现更加先进的匹配精度，并且还不会产生阻塞效应。而且，这种网络和传输一一对应的方式所需要的运动矢量相对来说也非常小。然而网络控制点不仅在网络上运行，一旦它成为检查点，发生变化时，相关网络将受到影响。也就是说，相邻网络之间的移动向量是连续的，因此有必要同时匹配多个相关网络来评估移动。确定最佳控制点将成为必要条件，这很复杂。

基于全局的运动估计法通常以整个图像为目标，有时预计在某些区域会有大图像，但每个区域不会变得太小。基于全局的运动估计法使用每一帧的顶级模型，因为只能在慢帧视频中获得比较好的效果，所以该方法的应用受到了很大的限制。

高阶块匹配测量方法突破了以往的局限，使用更高的运动模型，仿照类似的转换，不再使用平移阻止来进行运动估计，高阶模型对运动有更详细的描述，所以匹配的准确性一般高于块的匹配，这可能会产生较小的残差，但是最常见的阶数比较方法的数学模型一般来说都会有很多参数。在做运动估计时，需要多个检查点来传输一些运动矢量，这个过程往往是非常复杂的，计算量通常呈指数增长，所以在实时视频编码中几乎不考虑花费更多算法的、难度极高的高阶块的匹配。所以此方法并不能取得更好的结果。

现有技术虽然能在提高压缩率和视频质量上带来不错的效果，但却增加了HEVC编码器的复杂度，加大了实用的难度。

发明内容

为解决现有技术中，HEVC编码所存在的问题，本发明实施例之一的目的在于提供一种基于运动矢量敏感度的深度预测方法。

为实现上述目的，本发明实施例之一采用以下技术方案：

基于运动矢量敏感度的深度预测方法，步骤包括：

(1)定义变量skipModes、2×2矩阵变量mvSub、变量mvVar、MvSenNum、MvTotalNum和bMVSensitive；

(2)进入Skip和Merge模式；

(3)获取BestMode值和变换量化后cbf值，判断最佳模式是否存在且cbf系数为0且早期跳过模式的标志位是否为真：

若是，将skipModes赋值为true后进入步骤(4)；若否，直接进入步骤(4)；

(4)进入2N×2N模式，令subPartIdx为0；

(5)判断subPartldx是否小于4：

若是，进入步骤(6)；若否，进入步骤(8)；

(6)根据subPartldx进行子CU的最佳PU模式选择过程，获取CU最佳模式的1/2像素的率失真代价SubPel_cost、最优率失真代价Best_cost及MV，判断Subpel_cost/Best_cost的比值是否小于0.8：

若是，令bMVSensitive为true并且对MvSenNum加2；若否，进入步骤(7)；

(7)计算子CU各个像素前向和后向MV大小的平均值并分别存入mvSub[0][subPartldx]和MVSub[1][subPartldx]，依次对MvTotalNum加2、对subPartldx加1，进入步骤(5)；

(8)根据mvSub[2][4]计算前向MV的标准差var1和后向MV的标准差var2，判断是否满足mvVar>1且mvSenNum/MvTotalNum>0.5：

若是，则令skipModes为true；若否，判断skipModes是否为true：

若是，结束；若否，继续进行对称分割和非对称分割模式后结束。

优选地，所述skipModes初始值赋值为false。

优选地，所述mvSub用于计算前后向MV的标准差，初始值赋值为0。

优选地，所述mvVar是算前向MV的标准差var1和后向MV的标准差var2之和。

优选地，所述MvSenNum初始值赋值为0。

优选地，所述MvTotalNum初始值赋值为0。

优选地，所述bMVSensitive初始值赋值为false。

优选地，所述subPartIdx是CU的子序号。

优选地，所述BestMode为当前CU最佳模式。

优选地，所述cbf为当前CU全零块标志位值。

MV为运动矢量。

视频序列各深度占比中，深度为3的情况在编码过程中所占的比重接近50％。如果在编码过程中能够准确预测到一些编码单元避免其继续划分到深度为3的情况，那么在编码器可以得到显著优化。

在HEVC编码器的编码过程中，首先进行整像素运动估计，然后再进行分像素运动估计，分像素运动估计又分为1/2像素运动估计和1/4像素运动估计的过程，在进行运动估计的过程中，编码器都需要对每种像素进行率失真损耗计算，计算过程需要花费大量的编码时间。整像素的运动估计过程在影响了分像素的运动估计过程。

本发明实施例之一的方法，针对基于运动矢量深度预测方法中阈值难以选取的问题，引入了一个新的运动矢量敏感度参数bMVSensitive，该参数主要表达每一个运动矢量的微小变换是否导致很大的预测误差。测试了用1/2的预测误差与最优预测误差的比值来给该参数赋值。

引入运动矢量敏感度参数bMVSensitive的目的是在不影响视频编码质量的条件下，对于每一个CU在3种编码预测模式以及相应的深度划分中做出更优的选择。引入bMVSensitive后，基于运动矢量深度预测方法中的阈值设定可以更加准确，即运动矢量敏感度较大的时候，表明即使4个CU子块的运动矢量相差很小，基于RDO的最优划分计算也有可能选择继续分割，因此阈值可以做相应的调整。如果满足基于运动矢量敏感度的阈值条件，则在计算完四叉树后跳过后续计算，这样就可以节省大量的编码时间。

对于所有深度的所有CU，都要做PU模式选择。HEVC帧间编码运动信息编码存在3种PU模式，即Skip、Merge和Inter，其中skip和merge模式只有2N×2N划分方式，而Inter模式包含2N×2N、2N×N、N×2N、N×N、2N×nU、2N×nD、nL×2N以及nR×2N等划分方式，并且N×N模式只在CU为8×8才有。Skip需要传送的信息最少，编码效率最高，因此在进行PU模式决策判决时，首先要考虑PU是否符合Skip模式，然后再考虑Merge模式和Inter模式。帧间预测过程中，Merge/Skip模式被选为最终模式的几率很高，因此相当一部分模式，如四个不对称分割和预测单元的两种对称分割，这些模式的帧间预测都是多余的，这是本发明实施例之一的发明构思。

本发明实施例之一的方法是基于HEVC拥有多种划分CU块的机制，目的是为了能够使我们更加准确的对视频场景做具体的表达，这种多选择的机制能够帮助我们更灵活的应对块划分，提高编码效率。

算法从图片的纹理复杂度上下手，根据图片本身的特性，对于纹理复杂度简单的区域，直接跳过更深的CU层次划分部分，达到减小编码块划分复杂度的目的。

CU深度划分过程和运动估计过程在编码过程中所占编码时间比重很大，本发明方法的构思基于这一点，准确地估计运动矢量过程中的深度划分，有效提高编码效率。

本专利在研究了HEVC编码标准帧间预测的基础上，提出了基于运动矢量敏感度的深度预测优化算法，用于减少帧间预测中的计算量以及算法复杂度。

本发明实施例的有益效果

本发明的方法与原始x265比较，编码时间相比x265的算法可以减少编码器编码时长17.56％，而BDBR仅增加了约1.75％，BDPSNR减少了0.05dB，本发明的方法在视频质量不降低的前提下，优化了预测单元模式选择的过程，有效提高了编码速度。

在减少了编码算法复杂度的同时，以较小的质量损失实现了大幅提升视频编码速度，在视频编码领域具有良好的实用性。

附图说明

图1是本发明方法的流程图。

图2是BlowingBubbles序列的率失真曲线图。

图3是PartyScene序列的率失真曲线图。

图4是Soccer序列的率失真曲线图。

图5是Johnny序列的率失真曲线图。

具体实施方式

以下是本发明的具体实施例，并结合实施例对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例1

基于运动矢量敏感度的深度预测方法，流程如图1所示，步骤包括：

(2)进入Skip和Merge模式；

(4)进入2N×2N模式，令subPartIdx为0；

(5)判断subPartldx是否小于4：

若是，进入步骤(6)；若否，进入步骤(8)；

若是，则令skipModes为true；若否，判断skipModes是否为true：

其中，skipModes初始值赋值为false。mvSub用于计算前后向MV的标准差，初始值赋值为0。mvVar是算前向MV的标准差var1和后向MV的标准差var2之和。MvSenNum初始值赋值为0。MvTotalNum初始值赋值为0。bMVSensitive初始值赋值为false。subPartIdx是CU的子序号。BestMode为当前CU最佳模式。cbf为当前CU全零块标志位值。MV为运动矢量。

步骤(1)中，在进行模式选择之前，定义2行4列的运动矢量子矩阵mvSub，该矩阵用于存储一个CU的4个子CU的前向和后向运动矢量MV的大小值，并将初值全部赋为0，在后续的判别步骤中会有用到。

定义bMVSensitive作为判断是否继续进行CU深度划分的依据，即运动矢量敏感度参数的相应标志位，初始值为false。

定义skipModes来表示Skip模式，初始值为false。

在进行模式选择之前先进行Skip和Merge模式，也就是先选定一个初始模式，计算相关参变量的初始值，为后续模式选择及深度划分提供依据。

步骤(3)中，cbf为0且早期跳过模式的标志位EnableEarlySkip为ture，则表示应该选择Skip模式，即当前图像像素变化较为平坦，可以直接使用较大的CU以及更简洁的Skip模式进行预测编码，此时将skipModes变为true。

步骤(5)中，在HEVC中，CU的深度划分是按照四叉树结构进行划分的，意思是一个CU可以划分出4个子单元，即子CU，而子CU又可以继续划分，根据划分的深度程度(即块大小)，总共有64×64，32×32，16×16，8×8四种大小，子CU越小，代表划分深度越深。对于每一个CU划分出来的4个子CU，按照顺序依次编号为1，2，3，4也就是子CU序号subPartldx。此时判断subPartldx是否小于4，如果小于4，进入步骤(6)，如果不小于4，说明CU在该层的划分完毕，此时利用mvSub[2][4]分别计算前后向运动矢量(MV)的标准差var1，var2，并计算得到mvVar＝var1+var2，mvVar的大小即代表了4个子CU的差别(即通过MV标准差这一参数来判断各个子CU的差别程度)，随后计算参数mvSenNum和MvTotalNum的比值mvSenNum/MvTotalNum，mvSenNum/MvTotalNum即代表敏感度参数达到阈值的MV总数与所有MV总数的比值，即运动矢量敏感度参数。此时判断是否同时满足mvVar大于1且mvSenNum/MvTotalNum大于0.5。mvVar大于1代表标准差太大，说明4个子CU的MV差别比较大，也就是说明四个子CU可能不属于同一个物体，所以运动状态不一样，所以认为直接将它划分比较好，而不需要进行剩下的模式。mvSenNum/MvTotalNum大于0.5代表在4个子CU的所有MV中，敏感度参数达到阈值的MV的数量比例已经达到要求。两项条件同时满足，则那么判断skipModes是否为true，如果是，则说明不需要继续进行剩余模式，直接结束程序。如果skipModes不为true，那么接着进行对称分割和非对称分割模式即可，然后程序结束。

subPartldx小于4，说明CU在该层的划分还在进行之中，此时根据subPartldx进行子CU的最佳PU模式选择过程。获取CU最佳模式的1/2像素的率失真代价参数SubPel_cost，最优率失真代价Best_cost及MV，结束之后进行subPartldx自加1，并重新回到判断句subPartldx<4？中。同时判断Subpes_cost/Best_cost的比值是否小于0.8，如果是，代表该子CU在该模式中的率失真代价较低，达到运动矢量敏感度参数的阈值，令bMVSensitive为true，对MvSenNum自加2，代表达到敏感度阈值的MV数量增加2个，再计算子CU各个像素前向和后向MV大小的平均值分别存入mvSub[0][subPartldx]和MVSub[1][subPartldx]，即该子CU序号下对应的子CU的前后向MV。接着再对MvTotalNum自加2，即MV的总数增加2个，回到流程中subPartldx自加1，再判断subPartldx是否小于4；如果Subpes_cost/Best_cost的比值大于0.8，说明该子CU在该模式中的率失真代价较高，未达到运动矢量敏感度参数的阈值。那么就直接进入计算子CU各个像素前后和后向MV大小的平均值分别存入mvSub[0][subPartldx]和MVSub[1][subPartldx]这个步骤，并接着再对MvTotalNum自加2，回到流程中subPartldx自加1，再判断subPartldx是否小于4。

实施例2

本例采用实施例1的方法，采用x265编码器的2.2版本和vs2013工具进行实验，测试环境采用DELL Vostro 3900台式机进行实验数据的测试，配置为Inter Core i7-7700CPU，8G内存，64位操作***，1T硬盘。本例采用的编码参数与x265发布的标准测试参数一致。设置4个QP，分别为22、27、32、37。测试序列采用标准测试序列，如表1所示。

表1测试序列示意表

本发明实施例1的方法与x265的2.2版本的编码性能结果如表2所示。

表2实施例1的方法与x265的2.2版本的编码性能对比

从表2可知，本发明的方法与原始x265比较，编码时间相比x265的算法可以减少编码器编码时长17.56％，而BDBR仅增加了约1.75％，BDPSNR减少了0.05dB，因此，本发明的方法在视频质量不降低的前提下，优化了预测单元模式选择的过程，有效提高了编码速度。

为验证本发明方法在客观数据上的有效性，随机选取BlowingBubbles、PartyScene、Soccer和Johnny绘制了率失真曲线图，如图1～4所示，其中横坐标和纵坐标分别表示加入快速算法前后的比特率和PSNR，数据点为菱形的线条代表经本发明方法处理后的率失真曲线，数据点为三角形的线条代表未经本发明方法处理的率失真曲线。从中可以看出，HEVC标准编码算法和本发明方法优化的算法展现出来的率失真曲线几乎相同，表明本发明的方法对于图像的率失真性能的影响可以忽略不计。

结果表明，引入运动矢量敏感度参数后，基于运动矢量深度预测方法中的阈值设定可以更加准确，即运动矢量敏感度较大的时候，表明即使4个CU子块的运动矢量相差很小，基于率失真优化(RDO)的最优划分计算也有可能选择继续分割，因此阈值可以做相应的调整。如果满足基于运动矢量敏感度的阈值条件，则在计算完四叉树后跳过后续计算。整体性能测试表明，该方法在减少了帧间预测的算法复杂度的同时，以较小的质量损失实现了大幅提升视频编码速度。

Claims

1.基于运动矢量敏感度的深度预测方法，其特征在于，步骤包括：

（1）定义变量skipModes、2×2矩阵变量mvSub、变量mvVar、MvSenNum、MvTotalNum和bMVSensitive；

其中，skipModes表示Skip模式，初始值为false；

mvSub用于计算前后向MV的标准差，初始值赋值为0，MV为运动矢量；

mvVar是计算前向MV的标准差var1和后向MV的标准差var2之和；

MvSenNum表示敏感度参数达到阈值的MV总数，初始值赋值为0；

MvTotalNum表示所有MV总数，初始值赋值为0；

bMVSensitive为判断是否继续进行CU深度划分的依据，是运动矢量敏感度参数的相应标志位，初始值为false；

（2）进入Skip和Merge模式；

（3）获取BestMode值和变换量化后cbf值，判断最佳模式是否存在且cbf系数为0且早期跳过模式的标志位是否为真：

若是，将skipModes赋值为true后进入步骤（4）；若否，直接进入步骤（4）；

其中，BestMode为当前CU最佳模式；

cbf为当前CU全零块标志位值；

（4）进入2N×2N模式，令subPartIdx为0，subPartIdx是CU的子序号；

（5）判断subPartldx是否小于4：

若是，进入步骤（6）；若否，进入步骤（8）；

（6）根据subPartldx进行子CU的最佳PU模式选择过程，获取CU最佳模式的1/2像素的率失真代价SubPel_cost、最优率失真代价Best_cost及MV，判断Subpel_cost/Best_cost的比值是否小于0.8：

若是，令bMVSensitive为true并且对MvSenNum加2；若否，进入步骤（7）；

（7）计算子CU各个像素前向和后向MV大小的平均值并分别存入mvSub[0][subPartldx]和MVSub[1][subPartldx]，依次对MvTotalNum加2、对subPartldx加1，进入步骤（5）；

（8）根据mvSub[2][4]计算前向MV的标准差var1和后向MV的标准差var2，判断是否满足mvVar>1且mvSenNum/MvTotalNum>0.5：

若是，则令skipModes为true；若否，判断skipModes是否为true：