CN111654698A

CN111654698A - 一种针对h.266/vvc的快速cu分区决策方法

Info

Publication number: CN111654698A
Application number: CN202010534562.XA
Authority: CN
Inventors: 张秋闻; 王祎菡; 赵进超; 黄立勋; 蒋斌; 赵永博; 崔腾耀; 郭睿骁; 吴庆岗; 常化文; 王晓; 张伟伟; 孟颍辉; 李祖贺; 黄伟; 甘勇
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-11
Anticipated expiration: 2040-06-12
Also published as: CN111654698B

Abstract

本发明提出了一种针对H.266/VVC的快速CU分区决策方法，其步骤为：首先，利用传统编码方法对视频序列进行编码，并在编码过程中记录与CU划分的类别相关的特征，并利用改进的F‑score特征选择方法计算特征的得分值，将得分值较高的特征作为特征子集；其次，根据CU划分的类别和特征子集构建改进的有向无环图DAG‑SVM分类器模型；最后，将待划分的CU的纹理复杂度、方向复杂度和量化步长输入改进的有向无环图DAG‑SVM分类器模型中，预测CU最佳划分类别。本发明通过改进的F‑score特征选择方法和改进的有向无环图支持向量机DAG‑SVM模型的结合，能够***最佳CU分区，降低了计算复杂度，节省了编码时间。

Description

一种针对H.266/VVC的快速CU分区决策方法

技术领域

本发明涉及图像处理技术领域，特别是指一种针对H.266/VVC的快速CU分区决策方法。

背景技术

随着诸如4K/8K超高清(UHD)之类的视频应用的兴起，视频数据量激增，对编码技术提出了更高的要求。运动图像专家组(MPEG)和视频编码专家组(VCEG)成立了联合视频探索小组(JVET)，负责下一代视频编码标准-H.266/VVC项目的开发。截至2020年初，JVET发布了H.266/VVC的最新版本视频测试模型(VTM8.0)。与H.265/HEVC参考软件HM相比，H.266/VVC可以保持主观视觉质量不变，并将编码效率提高大约40％。

H.266/VVC使用混合编码技术框架，图像划分从单一、固定划分不断朝着多样、灵活的划分结构发展，能够更加高效的适配高分辨率图像的编解码处理。此外，新的图像划分采用了更加丰富的图像组织结构，有利于抗误码和并行处理的实现，但复杂的划分一般也会导致复杂度的显著提升，对编解码实现提出了更高的挑战，因此需要针对实际应用场景对图像划分做一定的限制和优化，寻求编码性能和编码复杂度之间的平衡。H.266/VVC是继H.265/HEVC之后的又一视频编码标准，它有良好的网络适应性、并行处理能力和压缩效率，将会在相当多的领域得到很好的应用，另外相关技术可在电视超清视频、3D视频、视频会议、精准医疗和VR视频等领域广泛应用。

H.266/VVC在H.265/HEVC的基础上增加了许多新技术，并扩展了一些之前的技术，因此H.266/VVC的压缩效率得到了显著的提高。CU(Coding Unit)分区方法是H.266/VVC的最大变化之一，其关键概念是增加多类型树(multi-type tree，MTT)结构。H.265/HEVC仅支持四叉树(Quad-Tree，QT)结构，但H.266/VVC中的多类型树MTT结构包括二叉树(BinaryTree，BT)和三叉树(Ternary Tree，TT)。因此，与H.265/HEVC相比，H.266/VVC使CU分区更加复杂。首先，将编码树单元(Coding Tree Unit，CTU)划分为四叉树QT。然后，将QT叶节点分为二叉树BT或三叉树TT。最后，多类型树MTT结构比四叉树QT结构生成更多的块形状，可以获得更有效的编码性能，但同时导致了更高的编码复杂度。因此，对于H.266/VVC来说，开发一种满足潜在市场实际需求的快速编码算法至关重要。

许多专家研究了高性能的算法来降低复杂度。在H.265/HEVC中，CU的拆分/不拆分决策可以视为一个二分类问题。G.Correa等人介绍了一组基于数据挖掘技术得到决策树的过程。J.F.de Olievira和M.S.Alencar设计了一种快速的CU拆分方法，通过使用相邻编码树单元CTU与当前编码树单元CTU之间的深度相关性来尽早终止CU的拆分过程。L.Shen等人通过利用编码信息和相邻块的纹理均匀性特征设计了一种快速的CU大小决策算法，来减少候选CU大小。B.Min等人利用了不同方向的全局边缘和局部边缘的复杂性，提出了一种快速决策方法来确定将编码树单元CTU的拆分。J.Lee等人设计了基于贝叶斯决策规则的快速CU分区方法。X.Shen等人提出基于支持向量机(Support Vector Machine，SVM)模型的灵活复杂度分配方法，用来预先确定帧间模式。Y.Luo等人设计了一种快速的CU深度选择方案和一种基于Inter 2N×2N模式的快速决策方法，以实现快速的CU编码模式决策。X.Gao等人提出了一种结合机器学习(Machine Learning，ML)技术和原始方法的RD成本的方法，来提高编码的准确性。C.Sun等人提出了一种基于支持向量机SVM模型的CU分割策略的快速帧内预测方法，以减少CU遍历次数。K.Chen等人开发了一种基于卷积神经网络(ConvolutionalNeural Network，CNN)的新方法，该方法结合了用于帧内编码的快速CU分区决策方案和快速预测单元(Prediction Unit，PU)模式决策方案。Y.Xu等人提出了一种基于CU的复杂度和决策树的的快速方法，来决定是否拆分当前CU。X.Liu等人基于机器学习ML技术设计了一种复杂度分类的快速方法。Z.Liu等人设计了基于卷积神经网络CNN的快速方法来降低编码复杂度。Y.C.Lin等人采用CU的纹理作为训练数据的输入特征，并对H.265/HEVC上的CU***行为进行建模。Y.Zhang等人在H.265/HEVC的帧内编码中设计了一种CU大小决策方法，该方法结合了基于支持向量机SVM模型的快速帧内CU大小决策方法的两个阶段。M.Grellert等人提出了一种基于支持向量机SVM离线训练的快速CU分区决策方案。由于帧间分割模式分割需要大量资源，K.Li and J.Wang提出了一种基于数据挖掘方法来降低H.265/HEVC的复杂性。Y.Xu等人设计了一种新颖的面向硬件的方法，用于H.265/HEVC的帧内编码。O.C.Cristina等人针对H.265/HEVC提出了一种新方案，该方案可显着降低复杂度。以上所有快速帧内方法可以确保编码性能，并有效降低H.265/HEVC的计算复杂度。但是，这些方法不是专门为H.266/VVC设计的，并且H.266/VVC采用了新的分区结构。因此，需要重新研究基于CU分区的低复杂度帧内编码方法。

近年来，许多专家已开始研究快速方法以降低H.266/VVC的编码复杂度。针对H.266/VVC，Z.Jin等人提出了基于卷积神经网络CNN的快速CU深度决策方法，其中四叉树加二叉树(Quad-tree Plus Binary Tree，QTBT)的分区深度范围被视为多类分类问题。Z.Jin等人介绍了一种新颖的快速四叉树加二叉树QTBT分区方案，该方案利用卷积神经网络CNN预测32×32块的分区深度范围。T.Lin等人设计了一种基于空间特征的快速帧内CU分区决策方法。为了减轻巨大的计算负担，T.Fu等人通过贝叶斯决策规则开发了一种新颖的快速块划分方法。J.Chen等人设计了一种新方法，该方法利用相邻最大编码单元的平均深度信息来决定是否提前终止CU划分。S.Park and J.Kang提出了一种早期跳过冗余多类型树MTT修剪的快速编码方法。为了降低帧内预测的复杂性并解决H.266/VVC中的矩形分区问题，J.Chen等人设计了一种基于方差和梯度的快速分区决策方案。G.Tang等人提出了针对各种CU形状的具有可变池卷积神经网络CNN的自适应CU分割方法。T.Amestoy等人提出了一种快速、轻量且可调的四叉树加二叉树QTBT的分区方法，该方法利用机器学***衡，N.Tang等人提出了一种用于帧内和帧间编码的快速CU划分方法。为了降低计算复杂度，H.Yang等人提出了一种快速帧内编码方案，该方案结合了低复杂度将编码树单元CTU结构决策方法和快速帧内模式决策算法。

发明内容

针对H.266/VVC编码的计算复杂度高的技术问题，本发明提出了一种针对H.266/VVC的快速CU分区决策方法，通过改进的F-score特征选择方法和改进的有向无环图支持向量机DAG-SVM模型的结合，能够***最佳CU分区，降低了计算复杂度，节省了编码时间。

本发明的技术方案是这样实现的：

一种针对H.266/VVC的快速CU分区决策方法，其步骤如下：

S1、采集大量的视频序列，利用传统编码方法对视频序列进行编码，并在编码过程中记录与CU划分的类别相关的特征，将CU划分的类别及相关的特征作为数据集，其中，CU划分的类别包括不划分、四叉划分、水平二进制划分、垂直二进制划分、水平三进制划分和垂直三进制划分；

S2、利用改进的F-score特征选择方法计算步骤S1中的特征的得分值，将得分值的前几位的特征作为特征子集，并将CU划分的类别及对应的特征子集作为样本集，其中，特征子集包括纹理复杂度、方向复杂度和量化步长；

S3、根据样本集构建改进的有向无环图DAG-SVM分类器模型；

S4、计算待划分的CU的纹理复杂度、方向复杂度和量化步长，将纹理复杂度、方向复杂度和量化步长输入步骤S3中的改进的有向无环图DAG-SVM分类器模型中，预测CU最佳划分类别。

所述步骤S2中利用改进的F-score特征选择方法计算步骤S1中的特征的得分值的方法为：

其中，F_i表示第i个特征的得分值，

表示第j类第l个CU的第i个特征的特征值，l＝1,2,…,n_j，n_j表示第j类的样本个数，j＝1,2…,k，k为样本类别数，R^N表示特征向量的维数，

表示第i个特征的平均值，

表示第i个特征在第j类数据集上的平均值。

所述根据样本集构建改进的有向无环图DAG-SVM分类器模型的方法为：

S31、分别将样本集中两个类别及其对应的特征子集依次输入SVM模型中进行训练，得到N个SVM分类器，其中，

k为样本类别数；

S32、计算各类别的重心：

其中，

表示第j类的重心，j＝1,2…,k，n_j表示第j类的样本个数，

表示第j类的第l个样本的位置；

S33、根据步骤S32中的各类别的重心计算各类别之间的距离：

其中，

表示第j'类的重心，j'＝1,2…,k，且j'≠j，

表示第i个特征第j类的重心，

表示第i个特征第j'类的重心，d_jj'表示第j类与第j'类的距离；

S34、计算第j类与其他类别之间的距离的平均值：

其中，ω[j]表示第j类与其他类别的平均距离；

S35、按从大到小的顺序对平均距离ω[j]进行排序，第一位即为平均距离最大值；

S36、将第一位平均距离对应的SVM分类器作为第一层分类器，第二位和第三位平均距离对应的SVM分类器作为第二层分类器，以此类推，得到第k-1层分类器；

S37、将相邻层之间的分类器依次连接，完成了改进的有向无环图DAG-SVM分类器模型的构建。

所述纹理复杂度的计算方法为：

其中，NMSE表示CU的相邻均方误差，即CU的纹理复杂度；W表示CU的宽，H表示CU的高，f(m,n)表示CU中的像素在位置(m,n)的亮度值，

表示CU中的像素在位置(m,n)的平均亮度值，m表示CU中的像素的横坐标，n表示CU中像素的纵坐标。

所述平均亮度值

为：

其中，f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值，f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值，f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值，f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值，f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值，f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值，f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值。

所述方向复杂度的计算方法为：

其中，DC表示CU的方向复杂度，W表示CU的宽，H表示CU的高，G_0°(m,n)表示0°方向的梯度值，G_45°(m,n)表示45°方向的梯度值，G_90°(m,n)表示90°方向的梯度值，G_135°(m,n)表示135°方向的梯度值。

所述梯度值的计算方法为：

G_d(m,n)＝S_d*A，

其中，d＝0°，45°，90°，135°，

表示邻域亮度值矩阵，S_d表示d方向的Sobel算子，f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值，f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值，f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值，f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值，f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值，f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值，f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值。

所述量化步长与量化参数之间的转化关系为：

其中，Q_Step表示量化步长，QP表示量化参数。

本技术方案能产生的有益效果：本发明首先通过改进的F-score特征选择方法选择与CU划分相关的特征，并获得特征子集；其次，利用改进的有向无环图支持向量机DAG-SVM模型进行离线训练；在基于改进的有向无环图支持向量机DAG-SVM分类器模型中，计算各类型的重心，并使用重心来计算各类型之间的距离；计算每个类别与其他类别之间距离的平均值，其中平均值较大的类别与其他类别的距离更远；优先选择平均距离较大的类别来生成有向无环图DAG中的上层的分类器；最后，利用经过有向无环图支持向量机DAG-SVM分类器模型***最佳CU分区。因此，降低了计算复杂度，节省了编码时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的有向无环图支持向量机DAG-SVM模型的网络拓扑图；

图3为本发明方法与CTDM、FIVG、FBDA和PDFD方法的编码时间的节省情况对比结果；

图4为本发明方法与CTDM、FIVG、FBDA和PDFD方法的BDBR的增加情况对比结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种针对H.266/VVC的快速CU分区决策方法，具体步骤如下：

S1、采集大量的视频序列，利用传统编码方法对视频序列进行编码，并在编码过程中记录与CU划分的类别相关的特征，将CU划分的类别及相关的特征作为数据集，其中，CU划分的类别包括不划分、四叉划分、水平二进制划分、垂直二进制划分、水平三进制划分和垂直三进制划分；H.266/VVC采用四叉树嵌套多类型树QTMT的划分结构，一个编码树单元CTU被视为四叉树QT的根节点，首先进行四叉树QT划分，当四叉树QT节点不大于64×64时，可以进行多类型树MTT划分。在多类型树MTT划分结构中，先判断是否要进一步划分，如果进一步划分，接着判断分割方向(包括水平和垂直方向)，最后判断是二进制划分还是三进制划分，最终确定多类型树MTT的划分模式。如果不划分，则继续判断其余的CU块，重复以上步骤，同时，记录CU分区的过程中与CU分区相关的一些特征。

S2、利用改进的F-score特征选择方法计算步骤S1中的特征的得分值，将得分值较高(前三位)的特征作为特征子集，其中，特征子集包括纹理复杂度、方向复杂度和量化步长。传统的F-score是一种有效的特征选择方法，它可以衡量两个类别之间的判别力。但是，传统的F-score特征选择方法具有一定的局限性。它仅适用于两类分类问题中的特征选择，而不能直接应用于多类分类问题中的特征选择，而实际问题通常是解决多类分类问题，因此扩展F-score方法来解决多类问题是非常必要的。因此，设计了一种改进的F-score方法，该方法不仅可以度量两类特征的判别力，而且可以度量多类特征的辨别力。

所述利用改进的F-score特征选择方法计算步骤S1中的特征的得分值的方法为：

其中，F_i表示第i个特征的得分值，

表示第j类第l个CU的第i个特征的特征值，l＝1,2,…,n_j，n_j表示第j类的样本个数，j＝1,2…,k，k＝6为样本类别数，R^N表示特征向量的维数，

表示第i个特征的平均值，

表示第i个特征在第j类数据集上的平均值。

S3、根据样本集构建改进的有向无环图DAG-SVM分类器模型；在有向无环图支持向量机DAG-SVM分类器模型中，上层分类器的分类性能会影响整体性能。因此，具有良好分类性能的两类支持向量机SVM分类器应出现在有向无环图DAG的上层节点中，以提高分类精度。对于包含k种样本的训练集，每种样本都必须在生成有向无环图DAG的过程中参与k-1个分类器的生成。如果某个类别的样本与训练样本集中的其他样本相距较远，则该样本生成的分类器的分类性能良好。对于此分类器，它应早些出现在DAG的上层节点中。如图2所示，在由6种样本生成的有向无环图DAG。本发明利用聚类分析中类距离的思想作为生成有向无环图DAG的基础。具体方法为：

S31、分别将两个类别及其对应的特征子集依次输入SVM模型中进行训练，得到N个SVM分类器，其中，

k为样本类别数；

S32、计算各类别的重心：

其中，

表示第j类的重心，j＝1,2…,k，n_j表示第j类的样本个数，

表示第j类的第l个样本的位置；

S33、根据步骤S32中的各类别的重心计算各类别之间的距离：

其中，

表示第j'类的重心，j'＝1,2…,k，且j'≠j，

表示第i个特征第j类的重心，

S34、计算第j类与其他类别之间的距离的平均值，平均值较大的类别与其他类别的距离更远：

其中，ω[j]表示第j类与其他类别的平均距离；

S37、将相邻层之间的分类器依次连接，完成了改进的有向无环图DAG-SVM分类器模型的构建。改进的有向无环图支持向量机DAG-SVM分类器模型可以***最佳CU划分类别。

为了准确地表示CU的纹理复杂度，使用相邻的均方误差NMSE代替了传统的方差，相邻的均方误差NMSE表示为：

其中，NMSE表示CU的相邻均方误差，即CU的纹理复杂度；W表示CU的宽，H表示CU的高，f(m,n)表示像素在位置(m,n)的亮度值，

表示像素在位置(m,n)的平均亮度值，m表示CU中的像素的横坐标，n表示CU中像素的纵坐标。

所述平均亮度值

为：

本发明使用四个方向(0°，45°，90°，135°)的Sobel算子来计算方向复杂度DC，方向复杂度DC也是测量图像复杂度的重要特征。先将每个Sobel算子应用到CU中的每个像素，每个方向上的梯度定义为：

G_d(m,n)＝S_d*A，

其中，d＝0°，45°，90°，135°，

所述方向复杂度的计算方法为：

量化参数QP在H.266/VVC中也起着重要作用，因为它直接影响视频编码和CU分区的比特率。根据转换公式可知，量化步长Q_Step的变化范围大于量化参数QP。因此，量化步长Q_Step被用作决定CU分割的重要特征，量化参数与量化步长之间的转化关系为：

为了反映广泛性，使用包括四个不同序列的UHD序列对改进的有向无环图支持向量机DAG-SVM分类器模型进行了测试。利用有限数量的帧来提取特征以降低支持向量机SVM模型训练的复杂性。用于训练和测试的视频序列如表1所示。

表1用于训练和测试的视频序列表

支持向量机SVM模型训练模式包括在线训练模式和离线训练模式。本发明采用离线训练模式训练支持向量机SVM来避免额外的计算负担。首先，提取视频序列中与CU划分相关的特征，并通过改进的F-score方法得到与CU划分相关性高的特征。其次，改进的有向无环图支持向量机DAG-SVM分类器模型使用离线训练模式进行训练。有向无环图支持向量机DAG-SVM分类器模型中的两类分类器的数量为k(k-1)/2，有向无环图支持向量机DAG-SVM分类器模型需要在每个两类之间构造分类超平面，所有两类支持向量机SVM分类器均用于构成有向无环图DAG。此外，有向无环图支持向量机DAG-SVM分类器模型包含k(k-1)/2个节点和k个叶子节点，第一层(顶层)仅包含一个节点称为根节点，第二层包括两个节点，以此类推，第k层包括k个节点。在有向无环图支持向量机DAG-SVM分类器模型中，每个最大化边缘的两类支持向量机SVM分类器为有向无环图DAG的一个节点，来解决k类分类问题。图2显示了有向无环图支持向量机DAG-SVM分类器模型的网络拓扑。j-vs-j’节点是由标记为类别j和j’的训练样本获得的，比如通过训练属于类别1和6的训练样本得到1-vs-6-SVM分类器，其中类别1和6的三个特征(纹理复杂度、方向复杂度DC和量化步长)作为1-vs-6-SVM分类器的输入。此外，对有向无环图支持向量机DAG-SVM分类器模型测试时，给定的输入样本X，假定输入样本X的类别标签为6，从根节点开始对未知样本进行分类。然后，根据根节点的分类结果，将样本X分类为下一层的左节点或右节点，直到它们到达有向无环图支持向量机DAG-SVM分类器模型的底层为止，输入样本X将经过五个节点，最后将其划分为类别6。如果输入样本X的类别标签为其他类别，则输入样本X也将经过其他五个节点，最后，确定样本X的类别。对于H.266/VVC中的帧内编码，已经离线训练好的有向无环图支持向量机DAG-SVM分类器模型不会生成太多复杂度计算。因此，经过训练的有向无环图支持向量机DAG-SVM分类器模型，可以准确的预测最佳CU分区。最终降低了计算复杂度并节省了编码时间，从而实现H.266/VVC的快速编码。

为了评估本发明的方法，在H.266/VVC编码器(VTM 4.0)上进行了仿真测试。BDBR反映了本发明的压缩性能，节省的时间(△T)体现了复杂性的降低。表2给出了本发明的编码性能，本发明可以节省54.74％编码运行时间，平均BDBR增量为0.93％。因此，本发明可以有效地节省编码时间，并且RD性能的损失可以忽略不计。

表2本发明的编码性能

从表2可以看出本发明的与VTM相比RD性能和节省的编码运行时间。本发明可以有效地增加时间节省，并且具有良好的RD性能。与VTM相比，该方法可以减少54.74％的编码时间，同时BDBR可以忽略不计。对于不同的视频序列，可能实验结果可能会有小的波动，但是本发明提出的方法是有效的。

将本发明方法与最新的H.266/VVC快速方法相比较，这些算法包括CTDM、FIVG、FBDA和PDFD方法。图3和图4分别给出了节省编码时间和BDBR的编码结果，由图3和图4可知，本发明方法可以节省时间并具有良好的RD性能，与CTDM、FIVG、FBDA和PDFD方法相比，本发明提出的方法在降低计算复杂度方面具有更高的性能，本发明提出的方法节省了约2.53-42.66％的编码时间。此外，与CTDM、FIVG和FBDA方法相比，本发明提出的方法具有更好的编码效率，可将BDBR降低0.14-0.46％。仿真结果表明，本发明提出的方法对各种视频有效，在性能评估上优于最新快速方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。