CN110062228A

CN110062228A - 基于wmse的360度视频快速帧内预测算法

Info

Publication number: CN110062228A
Application number: CN201910240177.1A
Authority: CN
Inventors: 张萌萌; 刘志
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-26
Anticipated expiration: 2039-03-18
Also published as: CN110062228B

Abstract

一种用于基于高效视频编码(HEVC)而对视频帧进行帧内预测的方法。当当前CU的PartMode为2N×2N时，获取当前CU与其4个子CU的8×8的预测像素采样块，并计算第一指标(SIMI)，所述第一指标表示子块和母块之间的相似度，同时也反映了当前CU对于视频质量的重要程度；以及如果所述第一指标小于第一阈值(T₁)，则提前结束当前CU的帧内预测；或者当当前CU的PartMode为N×N时，获取当前CU的8×8原始像素块和预测像素块，并且计算第二指标(DIST)，所述第二指标表示当前CU的失真，同时也反映了当前CU对于视频质量的重要程度；以及如果所述第二指标小于第二阈值(T2)，则提前结束当前CU的帧内预测。

Description

基于WMSE的360度视频快速帧内预测算法

联合研究

本申请由北方工业大学与北京交通大学信息所联合研究，并得到以下基金资助：国家自然科学基金(No.61103113，No.60903066)，北京市属高等学校人才强教深化计划项目(PHR201008187)；江苏省自然科学基金(BK2011455)，北京市自然科学基金(No.4102049)，***新教师基金(No.20090009120006)；国家973计划(2012CB316400)，中央高校基础研究基金(No.2011JBM214)。

技术领域

本发明涉及图像与视频处理领域，更具体而言，涉及在高效视频编码(HEVC)中对360度虚拟现实视频进行快速帧内预测的方法、装置和计算机程序产品。

背景技术

虚拟现实视频是用专业摄像机捕捉整个场景的图像信息，视频由软件拼接，由专用设备播放。它还为观看者提供了各种操作图像的功能，可以放大、缩小和向各个方向移动来观看场景，从而模拟和再现场景的真实环境。在虚拟现实***中，多个摄像机捕获360度场景并将所有场景拼接成球形视频，从而创建360度视频。当我们对360度视频进行编码时，我们必须将球形视频投影到平面视频中以适应广泛使用的编码标准，例如H.264/AVC和H.265/高效视频编码(HEVC)。多种投影格式，如等矩形投影(ERP)，调整的等面积(AEP)，立方体贴图(CMP)，等角立方图(EAC)，截断方形金字塔(TSP)，紧凑八面体(COHP)，紧凑二十面体(CISP)已被提议。在这些格式中，ERP是一种简单且广泛使用的格式。它将经线映射到恒定间距的垂直线，将纬线映射到恒定间距的水平线，进而将球形视频转换为平面视频。然而，ERP投影格式导致拉伸和失真，并且两极区域特别严重，导致冗余度增加和编码效率降低。在本研究中，我们使用ERP投影格式来说明我们提出的算法。

2010年4月，两大国际视频编码标准组织VCEG和MPEG成立视频压缩联合小组JCT-VC(Joint collaborative Team on Video Coding)，一同开发高效视频编码HEVC(Highefficiency video coding)标准，其也称为H.265。HEVC标准主要目标是与上一代标准H.264/AVC实现大幅度的编码效率的提高，尤其是针对高分辨率视频序列。其目标是在相同视频质量(PSNR)下码率降为H.264标准的50％。

就目前阶段，HEVC依然沿用H.264就开始采用的混合编码框架，如图1所示。帧间和帧内预测编码：消除时间域和空间域的相关性。变换编码：对残差进行变换编码以消除空间相关性。熵编码：消除统计上的冗余度。HEVC将在混合编码框架内，着力研究新的编码工具或技术，提高视频压缩效率。

目前，JCT-VC组织的讨论中已经提出的许多编码的新特性，有可能会加入HEVC标准中，各次讨论的具体文献可以从http：//wftp3.itu.int获得。

HEVC标准的第一版已经在2013年的一月份完成。并于2013年4月、2014年10月和2015年4月相继发布的3个版本，这些版本能够很容易地从网络上获得，并且本申请将上述HEVC标准的三个版本并入本说明书中作为本发明的背景技术。

HEVC提出了全新的语法单元：编码单元(CU)是进行预测、变换、量化和熵编码的基本单元，预测单元(PU)是进行帧内帧间预测的基本单元，变换单元(TU)是进行变换和量化的基本单元。

如图1所示，在HEVC中，可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中，HEVC都采用编码树单元(CTU)的编码结构，CTU是HEVC编解码的基本处理单元。CTU由1个亮度CTB、2个色度CTB和相应的语法元素组成。图2显示了在一个LCU编码后的CTU结构。在HEVC中，LCU可以只包含一个编码单元(CU)，也可以使用CTU四叉树结构划分出为不同大小的CU。

HEVC中有四种大小CU，大小分别为：64x64、32x32、16x16和8x8。CU块越小，其在CTU树中位置越深。当CU为64x64、32x32和16x16时称为2Nx2N模式(表示可以划分为更小的CU)，当CU为8x8时称为NxN模式(表示不可以进行进一步划分)。对于帧内预测，CU被分成两个PartMode(2Nx2N和NxN)，这取决于它是否可以被分成更小的CU。尺寸为64x64、32x32和16x16的CU属于2N×2N，尺寸为8×8的CU属于N×N。

在HEVC中，PU进行帧内帧间预测的基本单元，PU的划分是以CU为基础的，具有五种规则大小64x64、32x32、16x16、8x8和4x4。更具体地，PU尺寸基于PartMode：对于2N×2N的PartMode PU尺寸与CU相同，对于N×N的PartMode CU可以被划分为四个4×4子PU。对于2N*2N的CU模式，帧内预测PU的可选模式包括2N*2N和N*N，帧间预测PU的可选模式有8种，包括4种对称模式(2N*2N，N*2N，2N*N，N*N)和4种非对称模式(2N*nU，2N*nD，nL*2N，nR*2N)，其中，2N*nU和2N*nD分别以上下1∶3、3∶1的比例划分，nL*2N和nR*2N分别以左右1∶3、3∶1的比例划分。

在HEVC中，仍然继续使用H.264/AVC的拉格朗日率失真优化(RDO)进行模式选择，为每一个帧内模式计算其RDO：

J＝D+λR

其中，J为拉格朗日代价(亦即RD-cost)，D表示当前帧内模式的失真，R表示编码当前预测模式下所有信息所需的比特数，λ为拉格朗日因子。其中D通常使用绝对哈达玛变换差之和(SATD)来实现。

在帧内预测中，每个PU使用总共35种预测模式。使用粗略模式决策(RMD)，我们可以获得64x64、32x32和16x16块的三种候选模式以及8x8和4x4块的八种候选模式。通过合并来自相邻块的最可能模式(MPM)来获得每个PU大小的最佳候选列表。然后，通过RDO来选择当前PU的最佳帧内预测模式。当完成当前CU中包括的所有PU的帧内预测时，完成当前CU的帧内预测。通过当前CU的RD-cost与当前CU及其4个子CU的四个子CU的总RD-cost之间的比较来选择具有较小RD-cost的次优CU内部预测完成。当完成所有CU分区时，完成当前CTU帧内预测。对于HEVC，当对LCU进行编码时，应当执行85个CU(一个64×64CU，四个32×32CU，十六个16×16CU和六十四个8×8CU)的帧内预测。当CU被编码时，应当执行一个PU或四个子PU的帧内预测。大量CU和PU导致帧内预测的高复杂性。

WMSE是为评价360度视频质量而提出的一种质量评估指标。360度视频是一种球形视频，是360度视频和传统视频之间的最大差异。必须将360度视频投影到平面视频中，以根据HEVC标准对360度视频进行编码。虽然投影和传统视频是平面视频，但投影视频会导致失真并延伸到球形视频。因此，传统视频的客观质量评估度量(PSNR)不适合于投影视频。加权球面(WS)-PSNR被提出作为投影视频的客观质量评估度量。WS-PSNR的好处是改进了用于360度视频的PSNR计算失真方法，用WMSE取代了MSE：

WMSE＝weight(i，j)×MSE(i，j) (2)

其中height和width是视频的尺寸；y(i，j)和y′(i，j)分别是原始和重建的像素；weight(i，j)是360度视频投影视频的权重；并且各种投影格式的权重是不同的。公式3显示了ERP投影的权重的计算方法。对于360度视频，WMSE比MSE更合理。WMSE为投影视频设计权重，投影视频在失真和拉伸区域的权重较小，反之亦然。WS-PSNR被联合视频探索团队(JVET)认可为360度视频质量的客观质量评估指标。

图3显示了ERP重量分布。颜色越深，越接近0；颜色越浅，越接近1.Region0定义为两极附近区域，权重小；Region1定义为赤道附近的区域，权重大。

根据权重，我们可以发现WMSE不仅可以表示像MSE这样的某个区域的失真，还可以表示360度视频某个区域失真的重要程度。例如，如果Region0和Region1中的CU具有相同的尺寸和MSE，则Region1中的CU对视频质量的影响大于Region0中的CU。因此，我们选择WMSE作为我们提出的算法的核心指标。

如上所述地，根据高效视频编码(HEVC)中，大量CU和PU导致帧内预测的高复杂性。在虚实现实***中对360度视频进行编码时，由于包括ERP在内的各种投影格式导致拉伸和失真，并且两极区域特别严重，进一步导致了冗余度增加和编码效率降低。

发明内容

本发明提出了用于在高效视频编码(HEVC)中的方法、装置、编解码器以及处理器可读存储介质。更具体而言，本发明用于对360度视频进行帧内编码时，进行对当前CU的进一步划分的提前终止策略。

在一个方面，提出了一种用于基于高效视频编码(HEVC)而对视频帧进行帧内预测的方法，所述方法包括：

确定当前编码块(CU)的PartMode；

当当前CU的PartMode为2N×2N时：

获取当前CU与其4个子CU的8×8的预测像素采样块，并计算第一指标(SIMI)，所述第一指标表示子块和母块之间的相似度，同时也反映了当前CU对于视频质量的重要程度；以及

如果所述第一指标小于第一阈值(T₁)，则提前结束当前CU的帧内预测；或者

当当前CU的PartMode为N×N时：

获取当前CU的8×8原始像素块和预测像素块，并且计算第二指标(DIST)，所述第二指标表示当前CU的失真，同时也反映了当前CU对于视频质量的重要程度；以及

如果所述第二指标小于第二阈值(T₂)，则提前结束当前CU的帧内预测。

在进一步的方面中，第一指标是基于当前CU的8×8的采样块与当前CU的四个子CU的8×8的采样块的WMSE的。

在进一步的方面中，第二指标是基于当前CU的原始像素和预测像素的差值的。

在进一步的方面中，所述第一指标和所述第二指标还是基于投影视频的权重的。

在进一步的方面中，所述方法用于对360度视频的投影视频进行编码。

在进一步的方面中，所述方法用于对360度视频的ERP投影视频进行编码。

根据另一方面，提出了一种高效视频编码(HEVC)硬件编码器，所述编码器被配置为通过如下操作来对视频帧进行帧内预测的：

确定当前编码块(CU)的PartMode；

当当前CU的PartMode为2N×2N时：

当当前CU的PartMode为N×N时：

根据另一方面，提出了一种对使用所述的方法或所述的编码器进行编码的360视频流进行解码的解码器。

根据另一方面，提出了一种用于执行所述的方法的计算机程序产品。根据进一步的方面，该计算机程序产品具有非暂时性存储介质，其上存储有计算机代码/指令，当其被处理器执行时，可以实现本文所述的各种操作。

根据另一方面，提出了一种可用于视频编解码的设备，该设备包括：

一个或多个处理器；

存储器，其中存储有计算机代码，所述计算机代码当由所述处理器执行时，实现所述的方法。

附图说明

图1示出了HEVC的编码器框图的一个实施例。

图2示出了HEVC中的编码树(CTU)的示意图。

图3示出了根据本发明的一个实施例的ERP投影的权重分布图。

图4示出了根据本发明的一个实施例的对视频进行帧内编码的算法的一个具体的非限定性实例。

图5示出了根据本发明的一个实施例的对视频进行帧内编码的方法的一个具体的非限定性实例。

图6示出了用于实现本发明的一个实施例的编码方法的设备的示意图。

具体实施方式

现在参考附图来描述各种方案。在以下描述中，为了进行解释，阐述了多个具体细节以便提供对一个或多个方案的透彻理解。然而，显然，在没有这些具体细节的情况下也能够实现这些方案。

如在本申请中所使用的，术语“组件”、“模块”、“***”等等旨在指代与计算机相关的实体，例如但不限于，硬件、固件、硬件和软件的组合、软件，或者是执行中的软件。例如，组件可以是但不限于：在处理器上运行的进程、处理器、对象、可执行体(executable)、执行线程、程序、和/或计算机。举例而言，运行在计算设备上的应用程序和该计算设备都可以是组件。一个或多个组件可以位于执行进程和/或者执行线程内，并且组件可以位于一台计算机上和/或者分布在两台或更多台计算机上。另外，这些组件可以从具有存储在其上的各种数据结构的各种计算机可读介质执行。组件可以借助于本地和/或远程进程进行通信，例如根据具有一个或多个数据分组的信号，例如，来自于借助于信号与本地***、分布式***中的另一组件交互和/或者与在诸如因特网之类的网络上借助于信号与其他***交互的一个组件的数据。

本发明针对HEVC中在虚拟现实视频进行编码时进行LCU划分提出了新颖的算法。但是，本领域技术人员容易理解，本发明同样适用于对其他类型的视频帧进行编码。另外，本领域技术人员很容易理解，本发明是主要针对亮度分量的，而不用于色度分量。

本公开内容通过深入的分析传统视频与360度视频的ERP投影视频的联系和区别，对360度视频区别于传统视频的客观视频质量评估指标WS-PSNR进行了研究，进而利用加权均方误差(WMSE)既可以表示相同纬度下的客观视频质量，又可以区分不同纬度下像素对视频质量的影响程度的特点，将WMSE用作编码单元(CU)和预测单元(PU)提前终止划分的核心指标。对于2N×2N的CU，基于WMSE计算第一指标(以下称为SIMI)；对于N×N的CU，基于WMSE计算第二指标(以下称为DIST)。通过选择合适的阈值，实现对PU的提前终止划分。

本领域技术人员容易理解，PU的划分是基于CU的，需要由CU引出PU。对于2N×2N而言，PU与CU相同，对于N×N而言，PU与CU的不同在于PU可进一步划分为4×4的块。换言之，由于本公开内容中涉及到8×8块划分决策，所以这里必须是PU划分(因为CU的8×8已经是最小大小了)，而对于其他大小的CU和PU实质上都指同一个CU。因此，本公开内容中提及了针对2N×2N的CU和N×N的CU的PU划分终止。

从原理上，SIMI表示子块和母块的相似度，同时也反映了该CU对于球体视频质量的重要程度；类似地，DIST即表示该CU的失真，也反映了该CU对于球体视频质量的重要程度。

根据本发明的一个实施例，为了降低计算复杂度，提出了一种基于WMSE的360度视频快速帧内预测算法。图4显示了我们提出的算法的流程图。所提出的算法提前终止360度视频的不同大小划分的PU，这减少了用于帧内预测的PU的数量，并降低了帧内预测的复杂度。如图4所示，本公开内容提出的算法可以包括如下操作

1、按照原始算法进行当前CU的帧内预测过程。

2、当PartMode为2N×2N时，获取当前CU与其4个子CU的8×8的预测像素采样块，并且计算SIMI。如果SIMI＜T1，则提前结束该CU的帧内预测过程。

3、当PartMode为N×N时，获取当前CU的8×8原始像素块和预测像素块，并且计算DIST。如果DIST＜T2，则提前结束该CU的帧内预测过程。

4、如果不满足步骤2或步骤3中的条件，则不进行修改与原始算法保持一致。

对于2N×2N的CU，由WMSE计算的SIMI被定义为增加CU分区的提前终止的准确性。我们最初将当前CU及其四个子CU采样为8×8块并计算SIMI。当SIMI＜T₁指示当前CU类似于其四个子CU时，CU可能不需要继续四叉树分割。因此，我们跳过当前CU的剩余帧内预测过程；否则，连续执行未经修改的下一深度的帧内预测。对于N×N的CU，我们直接计算CU的WMSE。当WMSE＜T₂表示当前CU的帧内预测的失真小时，不应执行四个4×4PU帧内预测。因此，我们跳过CU的剩余帧内预测过程；否则，我们继续执行四个4×4PU的帧内预测而不进行修改。

流程图中的SIMI(即第一指标)表示当前CU与其四个子CU之间的相似度以及当前CU对360度视频质量的重要性，其计算公式如下：

其中，x，y是像素坐标，PareBl(x，y)是当前CU的8×8的采样块；ChilBl₁(x，y)，ChilBl₂(x，y)，ChilBl₃(x，y)和ChilBl₄(x，y)分别是当前CU的四个子CU的8×8的采样块；weight(x，y)是对应于子CU的8×8块位置的投影视频的权重。

当CU相似于其4个子CU时，CU不被分割的可能性非常高，此时其SIMI很小，因此，其不需要继续***。相反，当CU与其4个子CU不相似时，CU被分割的可能性非常高，并且其SIMI很大。因此，其需要继续***。SIMI是根据WMSE来计算得出的，因此，SIMI与WMSE具有一致性，SIMI也可以反映不同纬度的区域对视频的影响程度。SIMI越大，表示子块与母块越相似，也表示该CU的失真对视频质量影响更大；反之亦然。因此，使用SIMI作为360度视频提前终止2N×2N CU分割的指标是合适的。

N×N CU不被分成较小的CU，因为8×8已经是最小的CU。因此，使用SIMI来确定是否需要将N×N CU分成四个4×4PU是没有意义的。我们直接用WMSE计算预测块和原始块之间的DIST。小DIST表示CU已经实现了更好的帧内预测结果，并且不需要执行四个4×4PU的帧内预测，因此，我们跳过CU的剩余帧内预测过程；否则，我们继续四个4×4PU的帧内预测。DIST的计算公式：

其中OrgBl(x，y)和PreBl(x，y)分别代表当前CU的原始像素和预测像素，weight(x，y)表示投影视频的权重。

所提出的算法具有两组阈值：T₁和T₂，分别对应于2N×2N和N×N。HEVC使用与H.264/AVC相同的统一重建量化方案。量化参数(QP)的范围从0到51。QP和量化步长具有对数关系。QP增加6，量化步长增加一倍。QP会影响预测视频和原始视频之间的失真。在本公开内容中，使用了22、27、32和37的QP用于统计数据和测试所有序列。表1显示了不同QP和CU大小的T₁。

表1.不同QP和CU尺寸的阈值T₁的取值

表2 显示了不同QP的T2。

表2.不同QP下的阈值T₂的取值

在本发明的一个具体实施例中，在一个方面，提出了一种用于基于高效视频编码(HEVC)而对视频帧进行帧内预测的方法。

在步骤501中，该方法包括确定当前编码块(CU)的PartMode。

在步骤503中，该方法包括：当当前CU的PartMode为2N×2N时，获取当前CU与其4个子CU的8×8的预测像素采样块，并计算第一指标(SIMI)，所述第一指标表示子块和母块之间的相似度，同时也反映了当前CU对于视频质量的重要程度。

在一个具体实施例中，第一指标是基于当前CU的8×8的采样块与当前CU的四个子CU的8×8的采样块的WMSE的。

如果所述第一指标小于第一阈值(T₁)，则提前结束当前CU的帧内预测。

在步骤505中，该方法包括：当当前CU的PartMode为N×N时，获取当前CU的8×8原始像素块和预测像素块，并且计算第二指标(DIST)，所述第二指标表示当前CU的失真，同时也反映了当前CU对于视频质量的重要程度。

在一个具体实施例中，第二指标是基于当前CU的原始像素和预测像素的差值的。

在一个具体实施例中，所述第一指标和所述第二指标还是基于投影视频的权重的。

在一个具体实施例中，可以根据如上所述的公式(4)-(8)来计算第一指标。

在一个具体实施例中，可以根据如上所述的公式(9)来计算第二指标。

在一个优选实施例中，所述方法用于对360度视频的投影视频进行编码。

在一个优选实施例中，所述方法用于对360度视频的ERP投影视频进行编码。

图6中示出了一种可用于视频编解码的设备，该设备包括：处理器和存储器，在所述存储器中包括用于实现本发明的各种方法的处理器可执行代码。

根据另一方面，本公开内容还可以涉及用于实现上述编码方法的编码器。该编码器可以是专用硬件。

根据另一方面，本公开内容还可以涉及对应的对编码后的视频流进行解码的解码器。

根据另一方面，本公开内容还可以涉及执行本文所述方法的计算机程序产品。根据进一步的方面，该计算机程序产品具有非暂时性存储介质，其上存储有计算机代码/指令，当其被处理器执行时，可以实现本文所述的各种操作。

当用硬件实现时，视频编码器可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者设计为执行本文所述功能的其任意组合，来实现或执行。通用处理器可以是微处理器，但是可替换地，该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP内核的组合或者任何其它此种结构。另外，至少一个处理器可以包括可操作以执行上述的一个或多个步骤和/或操作的一个或多个模块。

当用ASIC、FPGA等硬件电路来实现视频编码器时，其可以包括被配置为执行各种功能的各种电路块。本领域技术人员可以根据施加在整个***上的各种约束条件来以各种方式设计和实现这些电路，来实现本发明所公开的各种功能。

尽管前述公开文件论述了示例性方案和/或实施例，但应注意，在不背离由权利要求书定义的描述的方案和/或实施例的范围的情况下，可以在此做出许多变化和修改。而且，尽管以单数形式描述或要求的所述方案和/或实施例的要素，但也可以设想复数的情况，除非明确表示了限于单数。另外，任意方案和/或实施例的全部或部分都可以与任意其它方案和/或实施例的全部或部分结合使用，除非表明了有所不同。

Claims

1.一种用于基于高效视频编码(HEVC)而对视频帧进行帧内预测的方法，所述方法包括：

确定当前编码块(CU)的PartMode；

当当前CU的PartMode为2N×2N时：

当当前CU的PartMode为N×N时：

2.如权利要求1所述的方法，其中，所述第一指标是基于当前CU的8×8的采样块与当前CU的四个子CU的8×8的采样块的WMSE的。

3.如权利要求1所述的方法，其中，所述第二指标是基于当前CU的原始像素和预测像素的差值的。

4.如权利要求1-3中任一项所述的方法，其中，所述第一指标和所述第二指标还是基于投影视频的权重的。

5.如权利要求1-4中任一项所述的方法，其中，所述方法用于对360度视频的投影视频进行编码。

6.如权利要求1-5中任一项所述的方法，其中，所述方法用于对360度视频的ERP投影视频进行编码。

7.一种高效视频编码(HEVC)硬件编码器，所述编码器被配置为通过如下操作来对视频帧进行帧内预测的：

确定当前编码块(CU)的PartMode；

当当前CU的PartMode为2N×2N时：

当当前CU的PartMode为N×N时：

8.一种对使用如权利要求1-6中任一项所述的方法或如权利要求7所述的编码器进行编码的360视频流进行解码的解码器。

9.一种用于执行权利要求1-6中任一项所述的方法的计算机程序产品。

10.一种可用于视频编解码的设备，该设备包括：

一个或多个处理器；

存储器，其中存储有计算机代码，所述计算机代码当由所述处理器执行时，实现如权利要求1-6中任一项所述的方法。