CN112437310B

CN112437310B - 一种基于随机森林的vvc帧内编码快速cu划分决策方法

Info

Publication number: CN112437310B
Application number: CN202011510836.8A
Authority: CN
Inventors: 罗雷; 何全
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-07-08
Anticipated expiration: 2040-12-18
Also published as: CN112437310A

Abstract

本发明涉及一种基于随机森林的VVC帧内编码快速CU划分决策方法，属于视频编码领域，包括以下步骤：S1：根据纹理信息与上下文信息将CU分为三类，并为各类CU选取一系列具有代表性的特征；S2：选取一系列具有不同分辨率与内容的视频序列进行编码，提取编码过程中各类CU的五类特征构建数据集；S3：为不同种类的CU分别构建随机森林分类器，通过数据集对随机森林分类器进行训练；S4：将训练好的随机森林分类器嵌入VVC原始编码流程中，预测各类CU的划分模式，替换原始递归的CU划分过程。本发明将随机森林分类器引入到VVC帧内编码中，在保证RD性能的同时有效地减小了编码复杂度。

Description

一种基于随机森林的VVC帧内编码快速CU划分决策方法

技术领域

本发明属于视频编码领域，涉及一种基于随机森林的VVC帧内编码快速CU划分决策方法。

背景技术

多功能视频编码(VVC)是最新的视频编码标准，由ITU-T视频编码组(VCEC)和ISO/IEC运动图像专家组(MPEG)的联合视频探索小组(JVET)开发。VVC标准的目标是提供比高效率视频编码(HEVC)标准更高的编码效率，以使其能够满足未来视频市场的需求，例如4K/8K超高清(UHD)，高动态范围(HDR)，虚拟现实(VR)和360度视频内容。据报道，与普通测试条件下的HEVC参考软件(HM)相比，VVC参考软件(VTM)的总体比特率降低了45％。但是，为了实现这种极大的编码效率改进，采用了一系列高级视频编码技术(例如基于四叉树嵌套多类型树(QTMT)的块划分结构，67种帧内预测模式和仿射运动补偿预测等)，从而导致极高的编码复杂度增加。根据AHG报告，在全帧内测试配置下，VTM的帧内编码复杂度是HM的10倍以上。较高的复杂度使得难以将VVC实施在多媒体应用中，因此有必要在保障RD性能条件下显著降低编码复杂度。

很多文献都对帧内编码快速算法行了研究。对于快速CU划分决策方法，大致可分为三种策略，包括提前终止、多分类和联合分类。提前终止策略尝试确定递归的CU划分过程在当前深度级别的划分之后是否终止。不难理解，提前终止主要发生在平滑纹理区域，它可以很好地保持RD性能，但是降低的计算复杂度也是有限的。多分类策略设计了一个复杂的预测模型，可以直接获得最佳的划分模式。多分类策略大大降低了计算复杂度，但由于VVC的块划分结构更复杂，因此预测精度受到限制，从而导致RD性能损失要高得多。为了在显著降低复杂度的同时提高预测精度，有研究者设计了联合分类策略来预测每种划分模式的概率，并且选择具有最高概率的一个或多个划分模式作为最终划分模式的候选。

对于以上三种策略，都有三类通用方法实现，包括启发式方法，传统机器学习方法和端到端深度学习方法。启发式方法首先在编码过程中手动提取一些特征(例如，图像纹理复杂度，RD Cost，上下文信息)，并且根据预设的阈值进行决策。启发式方法的最大优点是非常简单，但是准确性通常是有限的。传统的机器学习方法采用高级分类器(例如，支持向量机，决策树)来自动学习决策函数。端到端深度学习方法尝试使用深度神经网络自动完成特征提取和决策工作。

发明内容

有鉴于此，本发明的目的在于降低视频帧内编码的复杂度同时保持RD性能，提供一种基于随机森林的VVC帧内编码快速CU划分决策方法。

为达到上述目的，本发明提供如下技术方案：

一种基于随机森林的VVC帧内编码快速CU划分决策方法，包括以下步骤：

S1：根据纹理信息与上下文信息将CU分为三类，并为各类CU选取一系列具有代表性的特征；

S2：选取一系列具有不同分辨率与内容的视频序列进行编码，提取编码过程中各类CU的五类特征构建数据集；

S3：为不同种类的CU分别构建随机森林分类器，通过数据集对随机森林分类器进行训练；

S4：将训练好的随机森林分类器嵌入VVC原始编码流程中，预测各类CU的划分模式，替换原始递归的CU划分过程。

进一步，步骤S1具体包括：

S11：对于CU分类，使用方差定义CU的全局纹理复杂度，计算当前CU与周围CU的全局纹理复杂度；如果当前CU的纹理复杂度小于其相邻CU的最小纹理复杂度，则将其分类为简单CU；如果当前CU的纹理复杂度大于其相邻CU的最大纹理复杂度，则将其分类为复杂CU；如果当前CU的纹理复杂度介于其相邻CU的最小、最大纹理复杂度之间，则将其分类为模糊CU；

S12：对于特征选取，对JVET26条标准视频序列在不同QP下进行编码，统计CU深度分布，分析划分模式与视频内容关系，据此选取五类特征，包括纹理复杂度、梯度信息、上下文信息、局部复杂度差异、块信息。

进一步，步骤S2具体包括：

S21：提取纹理复杂度，包括全局纹理复杂度Var与局部纹理复杂度NMSE；

其中，W与H分别为当前CU的宽和高，P(i,j)为当前CU位置(i,j)处的像素值，Mean为当前CU像素的均值；

其中，MADP_(i,j)为当前CU位置(i,j)处的像素值与其相邻像素值的平均差，从局部像素角度反映纹理变化趋势，Mean_MADP为MADP矩阵的均值；

S22：提取梯度信息，包括水平、垂直、45°、135°四个方向上对应的梯度值G_H、G_V、G₄₅、G₁₃₅，CU的平均梯度值G_AVG以及CU的最大梯度值G_MAX；

G_MAX＝max(G_matrix)

其中，P表示当前CU的像素矩阵，G_matrix表示由CU每个像素的梯度值构成的矩阵；

S23：提取上下文信息，包括相邻CU的纹理复杂度信息及深度信息相，所述相邻CU包括左下、左、左上、上、右上方的CU；相邻CU的纹理复杂度信息包括相邻CU全局纹理复杂度的最大值ACC_max、最小值ACC_min、平均值ACC_avg；相邻CU的深度信息包括相邻CU四叉树深度的最大值ACD_{QT_max}、最小值ACD_{QT_min}、平均值ACD_{QT_avg}；相邻CU多类型树深度的最大值ACD_{MT_max}、最小值ACD_{MT_min}、平均值ACD_{MT_avg}；

S24：提取局部复杂度差异，包括五种划分类型对应子CU之间的全局纹理复杂度差异：SCCD_QT、SCCD_BH、SCCD_BV、SCCD_TH、SCCD_TV，其定义为：

其中var_i为第i个子CU的方差，

为各子CU方差的平均值；

S25：提取块信息，包括当前CU的宽W，高H，四叉树深度D_QT，多类型树深度D_MT。

进一步，步骤S3具体包括：

复杂类型CU与简单类型CU对应的随机森林RF_PM直接预测最优的划分模式，即分类数为6(四叉树划分、水平二叉树划分、垂直二叉树划分、水平三叉树划分、垂直三叉树划分、不划分)；模糊类型CU对应的随机森林RF_ET预测当前CU是否划分，即分类数为2(划分、不划分)；两种随机森林均由10棵CART分类树构成，最大深度为15；CART分类树使用基尼系数为每个节点选择最优的特征与对应的值进行分割，基尼系数定义为：

其中p_k是当前样本属于类别k的概率，对于所提取的数据集D，其基尼系数定义为：

其中，C_k表示数据集D中属于第k类的样本子集；数据集D根据特征A在某一取值i上进行分割，分割后样本集合的基尼系数定义为:

其中，D₁、D₂表示数据集D经过分割后的两个子集；对于特征A，分别计算任意特征值将数据集划分为两部分之后的基尼系数，选取其中的最小值，作为特征A得到的最优划分方案；然后对于数据集D，计算所有特征的最优划分方案，选取其中的最小值，作为数据集D的最优划分方案，定义为：

其中F表示所有的特征，i表示特征A所取的值。

进一步，步骤S4具体包括：

将训练好的随机森林分类器嵌入VVC参考软件VTM7.0中；输入CU时，计算当前CU的五类特征，并根据纹理信息与上下文信息对当前CU进行分类；对于复杂和简单类型CU，将其特征输入随机森林RF_PM直接获取最优的划分模式；对于模糊类型CU，将其特征输入随机森林RF_ET，判断其是否需要继续划分。

本发明的有益效果在于：本发明能够快速地进行CU划分决策，能够在降低视频帧内编码的复杂度同时保持RD性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的求解流程图；

图2为本发明的随机森林结构示意图；

图3为本发明加速CU划分决策流程图；

图4为本发明的效果图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面将结合本发明实施例中的附图，对本发明实施例中的具体实施方式进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的求解流程如图1所示。选取JVET标准测试视频序列:Tango2、CatRobot、Cactus、PartyScene、BlowingBubbles、FourPeople、SlideEditing，配置文件为:encoder_intra_vtm.cfg，QP设置为：22、27、32、37，编码帧数为40帧，使用VTM7.0进行编码，提取CU的特征构建数据集。

随机森林中树的数量设置为10，最大深度设置为15，使用CART作为随机森林分类器的基础树，基于基尼系数确定每棵树各个节点的最优划分特征及对应最优取值。随机森林结构如图2所示。将数据集按4：1分为训练集与测试集，对随机森林进行训练与测试，得到直接预测划分模式的随机森林RF_PM与预测是否提前终止的随机森林RF_ET。

使用VTM7.0对JVET A1-F类别中26个标准测试视频序列进行编码，配置文件为:encoder_intra_vtm.cfg，QP设置为：22、27、32、37，编码帧数为10帧。记录编码时间、PSNR、比特率。

将本发明中训练的两个随机森林嵌入VTM7.0中，替换原始的CU划分决策过程，流程如图3所示。对JVET中A1-F类别中26个标准测试视频序列进行编码，配置文件为:encoder_intra_vtm.cfg，QP设置为：22、27、32、37，编码帧数为10帧。记录编码时间、PSNR、比特率。

对结果进行对比，如图4所示。从图4可以看出本方法能节省57％的编码时间，这表明我们的方法能够快速地进行CU划分决策。同时，BDBR仅上升1.21％，BDPSNR仅下降0.12dB，这表明我们的方法引起的压缩效果降低与图像失真是几乎可以忽略的。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于随机森林的VVC帧内编码快速CU划分决策方法，其特征在于：包括以下步骤：

S1：根据纹理信息与上下文信息将CU分为三类，并为各类CU选取一系列具有代表性的特征；步骤S1具体包括：

S12：对于特征选取，对JVET26条标准视频序列在不同QP下进行编码，统计CU深度分布，分析划分模式与视频内容关系，据此选取五类特征，包括纹理复杂度、梯度信息、上下文信息、局部复杂度差异、块信息；

S2：选取一系列具有不同分辨率与内容的视频序列进行编码，提取编码过程中各类CU的五类特征构建数据集；步骤S2具体包括：

G_MAX＝max(G_matrix)

S23：提取上下文信息，包括相邻CU的纹理复杂度信息及深度信息，所述相邻CU为左下、左、左上、上、右上方的CU；相邻CU的纹理复杂度信息包括相邻CU全局纹理复杂度的最大值ACC_max、最小值ACC_min、平均值ACC_avg；相邻CU的深度信息包括相邻CU四叉树深度的最大值ACD_{QT_max}、最小值ACD_{QT_min}、平均值ACD_{QT_avg}；相邻CU多类型树深度的最大值ACD_{MT_max}、最小值ACD_{MT_min}、平均值ACD_{MT_avg}；

其中var_i为第i个子CU的方差，

为各子CU方差的平均值；

S25：提取块信息，包括当前CU的宽W，高H，四叉树深度D_QT，多类型树深度D_MT；

S3：为不同种类的CU分别构建随机森林分类器，通过数据集对随机森林分类器进行训练；步骤S3具体包括：

复杂类型CU与简单类型CU对应的随机森林RF_PM直接预测最优的划分模式，即分类数为6，包括四叉树划分、水平二叉树划分、垂直二叉树划分、水平三叉树划分、垂直三叉树划分、不划分；模糊类型CU对应的随机森林RF_ET预测当前CU是否划分，即分类数为2，包括划分、不划分；两种随机森林均由10棵CART分类树构成，最大深度为15；CART分类树使用基尼系数为每个节点选择最优的特征与对应的值进行分割，基尼系数定义为：

其中，C_k表示数据集D中属于第k类的样本子集；数据集D根据特征A在某一取值i上进行分割，分割后样本集合的基尼系数定义为：

其中F表示所有的特征，i表示特征A所取的值；

2.根据权利要求1所述的基于随机森林的VVC帧内编码快速CU划分决策方法，其特征在于：步骤S4具体包括：

将训练好的随机森林分类器嵌入VVC参考软件中；输入CU时，计算当前CU的五类特征，并根据纹理信息与上下文信息对当前CU进行分类；对于复杂和简单类型CU，将其特征输入随机森林RF_PM直接获取最优的划分模式；对于模糊类型CU，将其特征输入随机森林RF_ET，判断其是否需要继续划分。