CN104301723A

CN104301723A - 基于最优停止理论的高效视频快速编码方法

Info

Publication number: CN104301723A
Application number: CN201310297983.5A
Authority: CN
Inventors: 王瀚漓; 衡岳
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2013-07-16
Filing date: 2013-07-16
Publication date: 2015-01-21

Abstract

本发明涉及一种基于最优停止理论的高效视频快速编码方法，该方法包括以下步骤：1)获取视频序列中的待编码帧和N个高效视频编码模式，并初始化待编码帧中每个PU的概率信息；2)计算当前待编码PU在每个编码模式下对应的概率^，k＝1，2，...，N，并将N个编码模式按其概率降序排列；3)应用最优停止理论根据步骤2)的顺序依次检查各编码模式，计算并获得最佳编码模式和最优停止点；4)采用得到的最佳编码模式对当前待编码PU进行编码，并根据当前最佳编码模式和最优停止点更新参数，直至整个视频序列编码完成。与现有技术相比，本发明降低了HEVC在预测单元模式决定部分的计算量，提高编码速度，促进其在实际中的广泛应用。

Description

基于最优停止理论的高效视频快速编码方法

技术领域

本发明涉及视频压缩编码领域，尤其是涉及一种基于最优停止理论的高效视频快速编码方法。

背景技术

随着高清视频，甚至是超高清视频的兴起，大分辨率视频的应用在市场上愈发普及，并且广受欢迎。超高清视频的分辨率可以达到4Kx2K，甚至8Kx4K，这对视频压缩效率提出了新的挑战。目前广泛使用的视频压缩编码标准H.264/AVC于1999年至2003年间初步制定，并于2003年至2009年间又做了多次扩展和补充。迄今为止，H.264/AVC标准已经广泛应用于卫星视频广播、有线电视、视频会议、视频聊天和安保监控等众多领域。然而，针对目前新兴的高清视频领域，H.264/AVC标准的压缩效率和性能还不能很好地满足要求。在这种情况下，高效视频编码标准(High Efficiency Video Coding，HEVC)应运而生。

HEVC是ITU-T视频编码专家组(VCEG)和ISO/IEC运动图像专家组(MPEG)组成的联合视频编码组(JCT-VC)制定的，旨在H.264/AVC的基础上进一步提高压缩效率，并且在相同视频质量的情况下，达到2倍于H.264/AVC的压缩比。和H.264/AVC相比，HEVC编码技术最大的不同在于其四叉树结构。H.264/AVC中的宏块(MB)兼具预测和变换信息；在HEVC中，基本的编码单元是Coding Tree Unit(CTU)。CTU和MB的功能类似，但是CTU的预测信息携带单位是PU(Prediction Unit)。针对每一个CU(Coding Unit)，可进一步划分为4个子PU。在HEVC中，CU的大小可以是以下值：64x64、32x32、16x16、8x8。当对CU进行帧间(Inter)预测时，PU的大小可以为2Nx2N、2NxN、Nx2N、NxN、2NxnU、2NxnD、nLx2N、nRx2N。在这里，2Nx2N代表不进行子划分的CU大小，2NxN代表宽度为原CU一半的PU，2NxnU中n的大小为四分之一，各PU的大小如图1所示；当对CU进行帧内(Intra)预测时，PU的大小可以是2Nx2N或NxN(对亮度分量，N＝32、16、 8、4)。相对于H.264/AVC中最多有9种帧内预测方式(分别是垂直预测、水平预测、平均预测、左对角预测、右对角预测、垂直右对角预测、水平向下预测、垂直左对角预测和水平向上预测)，HEVC的帧内预测方式最多可达35种。当进行帧内预测时，每个PU都需要在35种预测方式中选择一种最佳模式进行预测编码。在HEVC中，采用RQT(Residual QuadTree)技术对预测产生的残差进行量化；和PU类似，HEVC采用TU(Transform Unit)对残差进行基于四叉树的量化和变换编码。对于亮度分量，TU的大小可以是32x32、16x16、8x8和4x4；对于色度分量，其TU的长宽分别是对应亮度分量TU长宽的二分之一。

和H.264/AVC相似，HEVC采用了基于拉格朗日率失真优化策略RDO(Rate Distortion Optimization)技术的模式选择算法，即通过遍历所有可能的模式，最后选择率失真代价最小的模式作为最佳编码模式，公式为：

J(s，c，m|QP，λ_m)＝D(s，c，m|QP)+λ_mR(s，c，m|QP)

式中，QP是量化参数；λ_m是拉格朗日常数，与QP有关；D是原始像素块s与重建块c之间的失真；R是利用模式m进行编码后产生的比特数。

相比于H.264/AVC中仅仅需要对MB进行所有模式的遍历计算选择，HEVC需要分别对每一层的CU、PU和TU进行最优选择，选择出最佳单元大小和模式进行编码。因此，HEVC中模式选择的计算复杂度是巨大的，在移动设备和实时环境下很难应用HEVC进行高效编码。这就需要快速算法来缩短编码时间以满足实际需要，同时又要在一定范围内满足视频质量的要求。

最优停止理论可以在某个适当的点停止，从而避免遍历待编码CU的所有模式来达到缩短编码时间的目的。最优停止理论问题可以归结如下：存在一个联合分布已知的随机变量的序列和一组实值奖励函数，决策者按照顺序一个个检查这些变量，同时获得相应的奖励函数值，并且在合适的时间停止检查余下的变量，最终的目的是获得的奖励函数值最大，这样获得最好的候选变量的概率也最大。通过把各种编码模式当作上面提到的变量，并且研究各种模式相互之间的关系，最优停止理论就可以应用到模式决定的快速算法中。

Ferguson等又提出了名为持续问题的一种最优停止问题，简单叙述为：在决策的过程中，如果某个变量比其他变量的观测值更好，那么它便成为是一个Relative Best Object(RBO)。持续问题的目标是在遇到下一个RBO之前，找到一个适当的时间停止观测，同时获得观测值最大的变量。持续问题的期望值越大，表明在停止点之后遇到下一个RBO的时间越长，同时能够节约的不必要时间也越多。换句话说，持续问题的解决方法在判定准确性和时间减少比例上能够很好地进行权衡，这点可以借鉴到视频编码的快速算法中，相对应的是既要尽可能选择到编码的最佳模式，同时又要尽量减少编码时间，这和持续问题的目的很类似。

发明内容

本发明的目的就是为了克服上述现有技术存在的计算量大、编码速度慢等缺陷提供一种基于最优停止理论的高效视频快速编码方法，降低了HEVC在预测单元模式决定部分的计算量，提高编码速度，促进其在实际中的广泛应用。

本发明的目的可以通过以下技术方案来实现：

一种基于最优停止理论的高效视频快速编码方法，该方法包括以下步骤：

1)获取视频序列中的待编码帧和N个高效视频编码模式，并初始化待编码帧中每个PU的概率信息；

2)计算当前待编码PU在每个编码模式下对应的概率p_k，k＝1，2，...，N，并将N个编码模式按其概率降序排列；

3)应用最优停止理论根据步骤2)的顺序依次检查各编码模式，计算并获得最佳编码模式和最优停止点；

4)采用得到的最佳编码模式对当前待编码PU进行编码，并根据当前最佳编码模式和最优停止点更新参数；

5)返回步骤2)，直至当前待编码帧的所有PU全部编码完成；

6)返回步骤1)，直至整个视频序列编码完成。

所述的当前待编码PU在每个编码模式下对应的概率p_k通过以下公式获取：

p_{k} = \frac{T_{u} (M_{u}, k) + T_{l} (M_{l}, k)}{Σ_{r = 1}^{M} (T_{u} (M_{u}, r) + T_{l} (M_{l} + r))}

其中，T_u(M_u，k)为当前待编码PU的上方PU最佳编码模式为M_u时，当前待编码PU最佳编码模式为k的概率预测矩阵；T_l(M_l，k)为当前待编码PU的左方PU最佳编码模式为M_l时，当前待编码PU最佳编码模式为k的概率预测矩阵。

所述的步骤3)具体为：

3.1)依次检查各候选模式，在第k个模式停止检查，设在模式k后的下一个相对最佳目标为T_k，则T_k＝j的概率为：

P (T_{k} = j) = P (X_{k + 1} > 1, X_{k + 2} > 1, . . ., X_{j - 1} > 1, X_{j} = 1)

= P (X_{j} = 1) Π_{r = k + 1}^{j - 1} [1 - P (X_{r} = 1)]

= Σ_{i = 1}^{k} p_{i} (\frac{1}{Σ_{r = 1}^{j - 1} p_{r}} - \frac{1}{Σ_{r = 1}^{j} p_{r}})

其中，j为自然数且j∈(k，N]，Xr(r＝k+1，k+2，...，j-1)表示第k+1、k+2一直到第j-1个模式在所有N个模式中被选为最佳模式的概率排名，P(X_j＝1)表示第j个模式是N个模式中的最佳模式的概率；

T_k的位置由下式得到

E (T_{k})

= (N + 1) \cdot P (T_{k} = N + 1) + Σ_{j = k + 1}^{N} [j \cdot P (T_{k} = j)]

= k + Σ_{i = 1}^{k} p_{i} Σ_{j = k}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}}

若E(T_k)大于设定的阈值τ，τ∈[N，N+1)，则当前的第k个模式为最佳编码模式；

3.2)计算最优停止点K_*：

K_*＝max{K_α，K_β}

式中

K_{α} = \min {k &GreaterEqual; 1 : Σ_{i = 1}^{k} p_{i} Σ_{j = k}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}} > τ - k}

K_{β} = \min {k &GreaterEqual; 1 : p_{k + 1} Σ_{j = k + 1}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}} \leq 1} .

所述的更新参数是指根据当前的编码模式对各概率预测矩阵进行更新，更新公式如下：

T′(M，k)＝T(M，k)·(1-γ)+p_m·γ

其中，T(M，k)为更新前的概率预测矩阵，T′(M，k)为更新后的概率预测矩阵，γ为更新参数，p_m表示在已编码PU的最佳模式为j，且满足j≤K_*的前提下，模式m成为最佳模式的后验概率，由以下公式计算得到：

p_{m} = \{\begin{matrix} Σ_{r = 1}^{K_{*}} p_{r}, m = j \\ 0, m \leq K_{*}, m &NotEqual; j \\ p_{m}, otherwise \end{matrix}\} .

与现有技术相比，本发明通过最优停止理论快速选择最佳的编码模式，在最优停止点后停止检查，减少了计算量，在保证视频编码质量的同时，又尽量减少了编码时间，提高了编码效率。

附图说明

图1为预测单元PU的划分示意图；

图2为本发明方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图2所示，一种基于最优停止理论的高效视频快速编码方法，该方法包括以下步骤：

1)获取视频序列中的待编码帧和N个高效视频编码模式，并初始化待编码帧中每个PU的概率信息，初始值皆为1/N。

本实施例采用11种编码模式，包括MERGE、2N×2N、2N×N、N×2N、N×N、2N×nU、2N×nD、nL×2N、nR×2N、Intra2N×2N、IntraN×N。

2)计算当前待编码PU在每个编码模式下对应的概率p_k，k＝1，2，...，N，并将N个编码模式按其概率降序排列。

各种研究资料表明，待编码PU和其相邻PU(一般是其上方和其左方PU)在最优模式上有紧密的关联，所以当前待编码PU在每个编码模式下对应的概率p_k通过以下公式获取：

p_{k} = \frac{T_{u} (M_{u}, k) + T_{l} (M_{l}, k)}{Σ_{r = 1}^{M} (T_{u} (M_{u}, r) + T_{l} (M_{l} + r))} - - - (1)

降序排列公式为：

p_{i} &GreaterEqual; p_{j}, &ForAll; i, j &Element; [1, N], i < j - - - (2)

3)应用最优停止理论根据步骤2)的顺序依次检查各编码模式，计算并获得最佳编码模式和最优停止点。

P (T_{k} = j) = P (X_{k + 1} > 1, X_{k + 2} > 1, . . ., X_{j - 1} > 1, X_{j} = 1)

= P (X_{j} = 1) Π_{r = k + 1}^{j - 1} [1 - P (X_{r} = 1)] - - - (3)

= Σ_{i = 1}^{k} p_{i} (\frac{1}{Σ_{r = 1}^{j - 1} p_{r}} - \frac{1}{Σ_{r = 1}^{j} p_{r}})

其中，j为自然数且j∈(k，N]，X_r(r＝k+1，k+2，...，j-1)表示第k+1、k+2一直到第j-1个模式在所有N个模式中被选为最佳模式的概率排名，P(X_j＝1)表示第j个模式是N个模式中的最佳模式的概率；

T_k的位置由下式得到

E (T_{k})

= (N + 1) \cdot P (T_{k} = N + 1) + Σ_{j = k + 1}^{N} [j \cdot P (T_{k} = j)] - - - (4)

= k + Σ_{i = 1}^{k} p_{i} Σ_{j = k}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}}

若E(T_k)大于设定的阈值τ，τ∈[N，N+1)，则当前的第k个模式为最佳编码模式，τ可取为N+4/5；

3.2)计算最优停止点K_*：

K_*＝max{K_α，K_β} (5)

式中

K_{α} = \min {k &GreaterEqual; 1 : Σ_{i = 1}^{k} p_{i} Σ_{j = k}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}} > τ - k} - - - (6)

K_{β} = \min {k &GreaterEqual; 1 : p_{k + 1} Σ_{j = k + 1}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}} \leq 1} - - - (7)

4)采用得到的最佳编码模式对当前待编码PU进行编码，并根据当前最佳编码模式和最优停止点更新参数。

更新参数是指根据当前的编码模式对各概率预测矩阵进行更新，更新公式如下：

T′(M，k)＝T(M，k)·(1-γ)+p_m·γ

其中，T(M，k)为更新前的概率预测矩阵，T′(M，k)为更新后的概率预测矩阵，γ为更新参数，一般取0.08，p_m表示在已编码PU的最佳模式为j，且满足j≤K_*的前提下，模式m成为最佳模式的后验概率，由以下公式计算得到：

p_{m} = \{\begin{matrix} Σ_{r = 1}^{K_{*}} p_{r}, m = j \\ 0, m \leq K_{*}, m &NotEqual; j \\ p_{m}, otherwise \end{matrix}\} - - - (8)

5)编码完一帧中所有的PU后，当前帧完成编码；

6)重复步骤1)至步骤5)，直到整个视频序列都完成编码。

本实施例通过以下实验验证上述方法的可行性和有效性，最后得到编码之后的实验结果，包含三个实验数据：编码时间、峰值信噪比PSNR和编码比特数BitRates。

在实验前，首先编写编码器配置文件，部分配置如表1所示：

表1

为了检验基于最优停止理论的高效视频编码的快速算法的性能，选取20个视频序列用于编码测试，分别是分辨率为2560×1600的Traffic、NebutaFestival、 SteamLocomotiveTrain；分辨率1920×1080的Kimono1、ParkScene、Cactus和BQTerrace；分辨率为1280×720的KristenAndSara、Johny、Vidyo1、Vidyo3、Vidyo4、FourPeople；分辨率832×480的RaceHorses、BasketballDrill、BQMall、PartyScene；分辨率416×240的RaceHorses、BasketballPass、BlowingBubbles。实验结果以三个标准来进行评价：

1)时间减少比例TS：

TS = \frac{T_{O} - T_{p}}{T_{O}} \times 100 %;

2)峰值性噪比(Y-PSNR)下降值：ΔPSNR＝P_p-P_o；

3)比特率(BR)上升值：

ΔBR = \frac{{BR}_{O} - {BR}_{p}}{{BR}_{O}} \times 100 % .

T_O，P_o，BR_O分别代表HM参考软件的编码时间、峰值性噪比和比特率。同样，T_p，P_p，BR_p代表采用了基于最优停止理论的快速模式决定的HM参考软件的编码时间、峰值性噪比和比特率。

对各个测试视频序列的测试结果如表格2所示：

表2

在上面的实验结果中，分辨率大的视频能很好地减少计算复杂度，同时又很好地保持视频压缩质量。如分辨率2500x1600的视频序列SteamLocomotiveTrain，时间平均减少63.1％，Y-PSNR平均降低0.03dB，Bitrates平均上升0.82％；分辨率1920x1080的视频序列ParkScene，时间平均减少64.8％，Y-PSNR平均降低0.04dB，Bitrates平均上升1.27％；分辨率1024x768的视频序列Johny，时间平均减少62.2％，Y-PSNR平均降低0.02dB，Bitrates平均上升0.43％。分辨率稍小的视频序列时间减少27％至33％，同时能较好地保持视频压缩质量。综合来说，算法能能很好地减少计算复杂度，同时较好地保持视频压缩质量。

Claims

1.一种基于最优停止理论的高效视频快速编码方法，其特征在于，该方法包括以下步骤：

5)返回步骤2)，直至当前待编码帧的所有PU全部编码完成；

6)返回步骤1)，直至整个视频序列编码完成。

2.根据权利要求1所述的一种基于最优停止理论的高效视频快速编码方法，其特征在于，所述的当前待编码PU在每个编码模式下对应的概率p_k通过以下公式获取：

p_{k} = \frac{T_{u} (M_{u}, k) + T_{l} (M_{l}, k)}{Σ_{r = 1}^{M} (T_{u} (M_{u}, r) + T_{l} (M_{l} + r))}

3.根据权利要求2所述的一种基于最优停止理论的高效视频快速编码方法，其特征在于，所述的步骤3)具体为：

\begin{matrix} P (T_{k} = j) = P (X_{k + 1} > 1, X_{k + 2} > 1, . . ., X_{j - 1} > 1, X_{j} = 1) \\ = P (X_{j} = 1) Π_{r = k + 1}^{j - 1} [1 - P (X_{r} = 1)] \\ = Σ_{i = 1}^{k} p_{i} (\frac{1}{Σ_{r = 1}^{j - 1} p_{r}} - \frac{1}{Σ_{r = 1}^{j} p_{r}}) \end{matrix}

T_k的位置由下式得到

E (T_{k})

= (N + 1) \cdot P (T_{k} = N + 1) + Σ_{j = k + 1}^{N} [j \cdot P (T_{k} = j)]

= k + Σ_{i = 1}^{k} p_{i} Σ_{j = k}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}}

3.2)计算最优停止点K_*：

K_*＝max{K_α，K_β}

式中

K_{α} = \min {k &GreaterEqual; 1 : Σ_{i = 1}^{k} p_{i} Σ_{j = k}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}} > τ - k}

K_{β} = \min {k &GreaterEqual; 1 : p_{k + 1} Σ_{j = k + 1}^{N} \frac{1}{Σ_{r = 1}^{j} p_{r}} \leq 1} .

4.根据权利要求3所述的一种基于最优停止理论的高效视频快速编码方法，其特征在于，所述的更新参数是指根据当前的编码模式对各概率预测矩阵进行更新，更新公式如下：

T′(M，k)＝T(M，k)·(1-γ)+p_m·γ

p_{m} = \{\begin{matrix} Σ_{r = 1}^{K_{*}} p_{r}, m = j \\ 0, m \leq K_{*}, m &NotEqual; j \\ p_{m}, otherwise \end{matrix}\} .