CN111654698B - 一种针对h.266/vvc的快速cu分区决策方法 - Google Patents

一种针对h.266/vvc的快速cu分区决策方法 Download PDF

Info

Publication number
CN111654698B
CN111654698B CN202010534562.XA CN202010534562A CN111654698B CN 111654698 B CN111654698 B CN 111654698B CN 202010534562 A CN202010534562 A CN 202010534562A CN 111654698 B CN111654698 B CN 111654698B
Authority
CN
China
Prior art keywords
pixel
luminance value
partition
class
complexity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010534562.XA
Other languages
English (en)
Other versions
CN111654698A (zh
Inventor
张秋闻
王祎菡
赵进超
黄立勋
蒋斌
赵永博
崔腾耀
郭睿骁
吴庆岗
常化文
王晓
张伟伟
孟颍辉
李祖贺
黄伟
甘勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202010534562.XA priority Critical patent/CN111654698B/zh
Publication of CN111654698A publication Critical patent/CN111654698A/zh
Application granted granted Critical
Publication of CN111654698B publication Critical patent/CN111654698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提出了一种针对H.266/VVC的快速CU分区决策方法,其步骤为:首先,利用传统编码方法对视频序列进行编码,并在编码过程中记录与CU划分的类别相关的特征,并利用改进的F‑score特征选择方法计算特征的得分值,将得分值较高的特征作为特征子集;其次,根据CU划分的类别和特征子集构建改进的有向无环图DAG‑SVM分类器模型;最后,将待划分的CU的纹理复杂度、方向复杂度和量化步长输入改进的有向无环图DAG‑SVM分类器模型中,预测CU最佳划分类别。本发明通过改进的F‑score特征选择方法和改进的有向无环图支持向量机DAG‑SVM模型的结合,能够***最佳CU分区,降低了计算复杂度,节省了编码时间。

Description

一种针对H.266/VVC的快速CU分区决策方法
技术领域
本发明涉及图像处理技术领域,特别是指一种针对H.266/VVC的快速CU分区决策方法。
背景技术
随着诸如4K/8K超高清(UHD)之类的视频应用的兴起,视频数据量激增,对编码技术提出了更高的要求。运动图像专家组(MPEG)和视频编码专家组(VCEG)成立了联合视频探索小组(JVET),负责下一代视频编码标准-H.266/VVC项目的开发。截至2020年初,JVET发布了H.266/VVC的最新版本视频测试模型(VTM8.0)。与H.265/HEVC参考软件HM相比,H.266/VVC可以保持主观视觉质量不变,并将编码效率提高大约40%。
H.266/VVC使用混合编码技术框架,图像划分从单一、固定划分不断朝着多样、灵活的划分结构发展,能够更加高效的适配高分辨率图像的编解码处理。此外,新的图像划分采用了更加丰富的图像组织结构,有利于抗误码和并行处理的实现,但复杂的划分一般也会导致复杂度的显著提升,对编解码实现提出了更高的挑战,因此需要针对实际应用场景对图像划分做一定的限制和优化,寻求编码性能和编码复杂度之间的平衡。H.266/VVC是继H.265/HEVC之后的又一视频编码标准,它有良好的网络适应性、并行处理能力和压缩效率,将会在相当多的领域得到很好的应用,另外相关技术可在电视超清视频、3D视频、视频会议、精准医疗和VR视频等领域广泛应用。
H.266/VVC在H.265/HEVC的基础上增加了许多新技术,并扩展了一些之前的技术,因此H.266/VVC的压缩效率得到了显著的提高。CU(Coding Unit)分区方法是H.266/VVC的最大变化之一,其关键概念是增加多类型树(multi-type tree,MTT)结构。H.265/HEVC仅支持四叉树(Quad-Tree,QT)结构,但H.266/VVC中的多类型树MTT结构包括二叉树(BinaryTree,BT)和三叉树(Ternary Tree,TT)。因此,与H.265/HEVC相比,H.266/VVC使CU分区更加复杂。首先,将编码树单元(Coding Tree Unit,CTU)划分为四叉树QT。然后,将QT叶节点分为二叉树BT或三叉树TT。最后,多类型树MTT结构比四叉树QT结构生成更多的块形状,可以获得更有效的编码性能,但同时导致了更高的编码复杂度。因此,对于H.266/VVC来说,开发一种满足潜在市场实际需求的快速编码算法至关重要。
许多专家研究了高性能的算法来降低复杂度。在H.265/HEVC中,CU的拆分/不拆分决策可以视为一个二分类问题。G.Correa等人介绍了一组基于数据挖掘技术得到决策树的过程。J.F.de Olievira和M.S.Alencar设计了一种快速的CU拆分方法,通过使用相邻编码树单元CTU与当前编码树单元CTU之间的深度相关性来尽早终止CU的拆分过程。L.Shen等人通过利用编码信息和相邻块的纹理均匀性特征设计了一种快速的CU大小决策算法,来减少候选CU大小。B.Min等人利用了不同方向的全局边缘和局部边缘的复杂性,提出了一种快速决策方法来确定将编码树单元CTU的拆分。J.Lee等人设计了基于贝叶斯决策规则的快速CU分区方法。X.Shen等人提出基于支持向量机(Support Vector Machine,SVM)模型的灵活复杂度分配方法,用来预先确定帧间模式。Y.Luo等人设计了一种快速的CU深度选择方案和一种基于Inter 2N×2N模式的快速决策方法,以实现快速的CU编码模式决策。X.Gao等人提出了一种结合机器学习(Machine Learning,ML)技术和原始方法的RD成本的方法,来提高编码的准确性。C.Sun等人提出了一种基于支持向量机SVM模型的CU分割策略的快速帧内预测方法,以减少CU遍历次数。K.Chen等人开发了一种基于卷积神经网络(ConvolutionalNeural Network,CNN)的新方法,该方法结合了用于帧内编码的快速CU分区决策方案和快速预测单元(Prediction Unit,PU)模式决策方案。Y.Xu等人提出了一种基于CU的复杂度和决策树的的快速方法,来决定是否拆分当前CU。X.Liu等人基于机器学习ML技术设计了一种复杂度分类的快速方法。Z.Liu等人设计了基于卷积神经网络CNN的快速方法来降低编码复杂度。Y.C.Lin等人采用CU的纹理作为训练数据的输入特征,并对H.265/HEVC上的CU***行为进行建模。Y.Zhang等人在H.265/HEVC的帧内编码中设计了一种CU大小决策方法,该方法结合了基于支持向量机SVM模型的快速帧内CU大小决策方法的两个阶段。M.Grellert等人提出了一种基于支持向量机SVM离线训练的快速CU分区决策方案。由于帧间分割模式分割需要大量资源,K.Li and J.Wang提出了一种基于数据挖掘方法来降低H.265/HEVC的复杂性。Y.Xu等人设计了一种新颖的面向硬件的方法,用于H.265/HEVC的帧内编码。O.C.Cristina等人针对H.265/HEVC提出了一种新方案,该方案可显着降低复杂度。以上所有快速帧内方法可以确保编码性能,并有效降低H.265/HEVC的计算复杂度。但是,这些方法不是专门为H.266/VVC设计的,并且H.266/VVC采用了新的分区结构。因此,需要重新研究基于CU分区的低复杂度帧内编码方法。
近年来,许多专家已开始研究快速方法以降低H.266/VVC的编码复杂度。针对H.266/VVC,Z.Jin等人提出了基于卷积神经网络CNN的快速CU深度决策方法,其中四叉树加二叉树(Quad-tree Plus Binary Tree,QTBT)的分区深度范围被视为多类分类问题。Z.Jin等人介绍了一种新颖的快速四叉树加二叉树QTBT分区方案,该方案利用卷积神经网络CNN预测32×32块的分区深度范围。T.Lin等人设计了一种基于空间特征的快速帧内CU分区决策方法。为了减轻巨大的计算负担,T.Fu等人通过贝叶斯决策规则开发了一种新颖的快速块划分方法。J.Chen等人设计了一种新方法,该方法利用相邻最大编码单元的平均深度信息来决定是否提前终止CU划分。S.Park and J.Kang提出了一种早期跳过冗余多类型树MTT修剪的快速编码方法。为了降低帧内预测的复杂性并解决H.266/VVC中的矩形分区问题,J.Chen等人设计了一种基于方差和梯度的快速分区决策方案。G.Tang等人提出了针对各种CU形状的具有可变池卷积神经网络CNN的自适应CU分割方法。T.Amestoy等人提出了一种快速、轻量且可调的四叉树加二叉树QTBT的分区方法,该方法利用机器学***衡,N.Tang等人提出了一种用于帧内和帧间编码的快速CU划分方法。为了降低计算复杂度,H.Yang等人提出了一种快速帧内编码方案,该方案结合了低复杂度将编码树单元CTU结构决策方法和快速帧内模式决策算法。
发明内容
针对H.266/VVC编码的计算复杂度高的技术问题,本发明提出了一种针对H.266/VVC的快速CU分区决策方法,通过改进的F-score特征选择方法和改进的有向无环图支持向量机DAG-SVM模型的结合,能够***最佳CU分区,降低了计算复杂度,节省了编码时间。
本发明的技术方案是这样实现的:
一种针对H.266/VVC的快速CU分区决策方法,其步骤如下:
S1、采集大量的视频序列,利用传统编码方法对视频序列进行编码,并在编码过程中记录与CU划分的类别相关的特征,将CU划分的类别及相关的特征作为数据集,其中,CU划分的类别包括不划分、四叉划分、水平二进制划分、垂直二进制划分、水平三进制划分和垂直三进制划分;
S2、利用改进的F-score特征选择方法计算步骤S1中的特征的得分值,将得分值的前几位的特征作为特征子集,并将CU划分的类别及对应的特征子集作为样本集,其中,特征子集包括纹理复杂度、方向复杂度和量化步长;
S3、根据样本集构建改进的有向无环图DAG-SVM分类器模型;
S4、计算待划分的CU的纹理复杂度、方向复杂度和量化步长,将纹理复杂度、方向复杂度和量化步长输入步骤S3中的改进的有向无环图DAG-SVM分类器模型中,预测CU最佳划分类别。
所述步骤S2中利用改进的F-score特征选择方法计算步骤S1中的特征的得分值的方法为:
Figure BDA0002536581120000041
其中,Fi表示第i个特征的得分值,
Figure BDA0002536581120000042
表示第j类第l个CU的第i个特征的特征值,l=1,2,…,nj,nj表示第j类的样本个数,j=1,2…,k,k为样本类别数,RN表示特征向量的维数,
Figure BDA0002536581120000043
表示第i个特征的平均值,
Figure BDA0002536581120000044
表示第i个特征在第j类数据集上的平均值。
所述根据样本集构建改进的有向无环图DAG-SVM分类器模型的方法为:
S31、分别将样本集中两个类别及其对应的特征子集依次输入SVM模型中进行训练,得到N个SVM分类器,其中,
Figure BDA0002536581120000045
k为样本类别数;
S32、计算各类别的重心:
Figure BDA0002536581120000046
其中,
Figure BDA0002536581120000047
表示第j类的重心,j=1,2…,k,nj表示第j类的样本个数,
Figure BDA0002536581120000048
表示第j类的第l个样本的位置;
S33、根据步骤S32中的各类别的重心计算各类别之间的距离:
Figure BDA0002536581120000049
其中,
Figure BDA00025365811200000410
表示第j'类的重心,j'=1,2…,k,且j'≠j,
Figure BDA00025365811200000411
表示第i个特征第j类的重心,
Figure BDA00025365811200000412
表示第i个特征第j'类的重心,djj'表示第j类与第j'类的距离;
S34、计算第j类与其他类别之间的距离的平均值:
Figure BDA00025365811200000413
其中,ω[j]表示第j类与其他类别的平均距离;
S35、按从大到小的顺序对平均距离ω[j]进行排序,第一位即为平均距离最大值;
S36、将第一位平均距离对应的SVM分类器作为第一层分类器,第二位和第三位平均距离对应的SVM分类器作为第二层分类器,以此类推,得到第k-1层分类器;
S37、将相邻层之间的分类器依次连接,完成了改进的有向无环图DAG-SVM分类器模型的构建。
所述纹理复杂度的计算方法为:
Figure BDA0002536581120000051
其中,NMSE表示CU的相邻均方误差,即CU的纹理复杂度;W表示CU的宽,H表示CU的高,f(m,n)表示CU中的像素在位置(m,n)的亮度值,
Figure BDA0002536581120000052
表示CU中的像素在位置(m,n)的平均亮度值,m表示CU中的像素的横坐标,n表示CU中像素的纵坐标。
所述平均亮度值
Figure BDA0002536581120000053
为:
Figure BDA0002536581120000054
其中,f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值,f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值,f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值,f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值,f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值,f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值,f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值。
所述方向复杂度的计算方法为:
Figure BDA0002536581120000055
其中,DC表示CU的方向复杂度,W表示CU的宽,H表示CU的高,G(m,n)表示0°方向的梯度值,G45°(m,n)表示45°方向的梯度值,G90°(m,n)表示90°方向的梯度值,G135°(m,n)表示135°方向的梯度值。
所述梯度值的计算方法为:
Gd(m,n)=Sd*A,
其中,d=0°,45°,90°,135°,
Figure BDA0002536581120000056
表示邻域亮度值矩阵,Sd表示d方向的Sobel算子,f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值,f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值,f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值,f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值,f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值,f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值,f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值。
所述量化步长与量化参数之间的转化关系为:
Figure BDA0002536581120000061
其中,QStep表示量化步长,QP表示量化参数。
本技术方案能产生的有益效果:本发明首先通过改进的F-score特征选择方法选择与CU划分相关的特征,并获得特征子集;其次,利用改进的有向无环图支持向量机DAG-SVM模型进行离线训练;在基于改进的有向无环图支持向量机DAG-SVM分类器模型中,计算各类型的重心,并使用重心来计算各类型之间的距离;计算每个类别与其他类别之间距离的平均值,其中平均值较大的类别与其他类别的距离更远;优先选择平均距离较大的类别来生成有向无环图DAG中的上层的分类器;最后,利用经过有向无环图支持向量机DAG-SVM分类器模型***最佳CU分区。因此,降低了计算复杂度,节省了编码时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的有向无环图支持向量机DAG-SVM模型的网络拓扑图;
图3为本发明方法与CTDM、FIVG、FBDA和PDFD方法的编码时间的节省情况对比结果;
图4为本发明方法与CTDM、FIVG、FBDA和PDFD方法的BDBR的增加情况对比结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种针对H.266/VVC的快速CU分区决策方法,具体步骤如下:
S1、采集大量的视频序列,利用传统编码方法对视频序列进行编码,并在编码过程中记录与CU划分的类别相关的特征,将CU划分的类别及相关的特征作为数据集,其中,CU划分的类别包括不划分、四叉划分、水平二进制划分、垂直二进制划分、水平三进制划分和垂直三进制划分;H.266/VVC采用四叉树嵌套多类型树QTMT的划分结构,一个编码树单元CTU被视为四叉树QT的根节点,首先进行四叉树QT划分,当四叉树QT节点不大于64×64时,可以进行多类型树MTT划分。在多类型树MTT划分结构中,先判断是否要进一步划分,如果进一步划分,接着判断分割方向(包括水平和垂直方向),最后判断是二进制划分还是三进制划分,最终确定多类型树MTT的划分模式。如果不划分,则继续判断其余的CU块,重复以上步骤,同时,记录CU分区的过程中与CU分区相关的一些特征。
S2、利用改进的F-score特征选择方法计算步骤S1中的特征的得分值,将得分值较高(前三位)的特征作为特征子集,其中,特征子集包括纹理复杂度、方向复杂度和量化步长。传统的F-score是一种有效的特征选择方法,它可以衡量两个类别之间的判别力。但是,传统的F-score特征选择方法具有一定的局限性。它仅适用于两类分类问题中的特征选择,而不能直接应用于多类分类问题中的特征选择,而实际问题通常是解决多类分类问题,因此扩展F-score方法来解决多类问题是非常必要的。因此,设计了一种改进的F-score方法,该方法不仅可以度量两类特征的判别力,而且可以度量多类特征的辨别力。
所述利用改进的F-score特征选择方法计算步骤S1中的特征的得分值的方法为:
Figure BDA0002536581120000071
其中,Fi表示第i个特征的得分值,
Figure BDA0002536581120000072
表示第j类第l个CU的第i个特征的特征值,l=1,2,…,nj,nj表示第j类的样本个数,j=1,2…,k,k=6为样本类别数,RN表示特征向量的维数,
Figure BDA0002536581120000073
表示第i个特征的平均值,
Figure BDA0002536581120000074
表示第i个特征在第j类数据集上的平均值。
S3、根据样本集构建改进的有向无环图DAG-SVM分类器模型;在有向无环图支持向量机DAG-SVM分类器模型中,上层分类器的分类性能会影响整体性能。因此,具有良好分类性能的两类支持向量机SVM分类器应出现在有向无环图DAG的上层节点中,以提高分类精度。对于包含k种样本的训练集,每种样本都必须在生成有向无环图DAG的过程中参与k-1个分类器的生成。如果某个类别的样本与训练样本集中的其他样本相距较远,则该样本生成的分类器的分类性能良好。对于此分类器,它应早些出现在DAG的上层节点中。如图2所示,在由6种样本生成的有向无环图DAG。本发明利用聚类分析中类距离的思想作为生成有向无环图DAG的基础。具体方法为:
S31、分别将两个类别及其对应的特征子集依次输入SVM模型中进行训练,得到N个SVM分类器,其中,
Figure BDA0002536581120000081
k为样本类别数;
S32、计算各类别的重心:
Figure BDA0002536581120000082
其中,
Figure BDA0002536581120000083
表示第j类的重心,j=1,2…,k,nj表示第j类的样本个数,
Figure BDA0002536581120000084
表示第j类的第l个样本的位置;
S33、根据步骤S32中的各类别的重心计算各类别之间的距离:
Figure BDA0002536581120000085
其中,
Figure BDA0002536581120000086
表示第j'类的重心,j'=1,2…,k,且j'≠j,
Figure BDA0002536581120000087
表示第i个特征第j类的重心,
Figure BDA0002536581120000088
表示第i个特征第j'类的重心,djj'表示第j类与第j'类的距离;
S34、计算第j类与其他类别之间的距离的平均值,平均值较大的类别与其他类别的距离更远:
Figure BDA0002536581120000089
其中,ω[j]表示第j类与其他类别的平均距离;
S35、按从大到小的顺序对平均距离ω[j]进行排序,第一位即为平均距离最大值;
S36、将第一位平均距离对应的SVM分类器作为第一层分类器,第二位和第三位平均距离对应的SVM分类器作为第二层分类器,以此类推,得到第k-1层分类器;
S37、将相邻层之间的分类器依次连接,完成了改进的有向无环图DAG-SVM分类器模型的构建。改进的有向无环图支持向量机DAG-SVM分类器模型可以***最佳CU划分类别。
S4、计算待划分的CU的纹理复杂度、方向复杂度和量化步长,将纹理复杂度、方向复杂度和量化步长输入步骤S3中的改进的有向无环图DAG-SVM分类器模型中,预测CU最佳划分类别。
为了准确地表示CU的纹理复杂度,使用相邻的均方误差NMSE代替了传统的方差,相邻的均方误差NMSE表示为:
Figure BDA0002536581120000091
其中,NMSE表示CU的相邻均方误差,即CU的纹理复杂度;W表示CU的宽,H表示CU的高,f(m,n)表示像素在位置(m,n)的亮度值,
Figure BDA0002536581120000092
表示像素在位置(m,n)的平均亮度值,m表示CU中的像素的横坐标,n表示CU中像素的纵坐标。
所述平均亮度值
Figure BDA0002536581120000093
为:
Figure BDA0002536581120000094
其中,f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值,f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值,f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值,f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值,f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值,f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值,f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值。
本发明使用四个方向(0°,45°,90°,135°)的Sobel算子来计算方向复杂度DC,方向复杂度DC也是测量图像复杂度的重要特征。先将每个Sobel算子应用到CU中的每个像素,每个方向上的梯度定义为:
Gd(m,n)=Sd*A,
其中,d=0°,45°,90°,135°,
Figure BDA0002536581120000095
表示邻域亮度值矩阵,Sd表示d方向的Sobel算子,f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值,f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值,f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值,f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值,f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值,f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值,f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值。
所述方向复杂度的计算方法为:
Figure BDA0002536581120000096
其中,DC表示CU的方向复杂度,W表示CU的宽,H表示CU的高,G(m,n)表示0°方向的梯度值,G45°(m,n)表示45°方向的梯度值,G90°(m,n)表示90°方向的梯度值,G135°(m,n)表示135°方向的梯度值。
量化参数QP在H.266/VVC中也起着重要作用,因为它直接影响视频编码和CU分区的比特率。根据转换公式可知,量化步长QStep的变化范围大于量化参数QP。因此,量化步长QStep被用作决定CU分割的重要特征,量化参数与量化步长之间的转化关系为:
Figure BDA0002536581120000101
为了反映广泛性,使用包括四个不同序列的UHD序列对改进的有向无环图支持向量机DAG-SVM分类器模型进行了测试。利用有限数量的帧来提取特征以降低支持向量机SVM模型训练的复杂性。用于训练和测试的视频序列如表1所示。
表1用于训练和测试的视频序列表
Figure BDA0002536581120000102
Figure BDA0002536581120000111
支持向量机SVM模型训练模式包括在线训练模式和离线训练模式。本发明采用离线训练模式训练支持向量机SVM来避免额外的计算负担。首先,提取视频序列中与CU划分相关的特征,并通过改进的F-score方法得到与CU划分相关性高的特征。其次,改进的有向无环图支持向量机DAG-SVM分类器模型使用离线训练模式进行训练。有向无环图支持向量机DAG-SVM分类器模型中的两类分类器的数量为k(k-1)/2,有向无环图支持向量机DAG-SVM分类器模型需要在每个两类之间构造分类超平面,所有两类支持向量机SVM分类器均用于构成有向无环图DAG。此外,有向无环图支持向量机DAG-SVM分类器模型包含k(k-1)/2个节点和k个叶子节点,第一层(顶层)仅包含一个节点称为根节点,第二层包括两个节点,以此类推,第k层包括k个节点。在有向无环图支持向量机DAG-SVM分类器模型中,每个最大化边缘的两类支持向量机SVM分类器为有向无环图DAG的一个节点,来解决k类分类问题。图2显示了有向无环图支持向量机DAG-SVM分类器模型的网络拓扑。j-vs-j’节点是由标记为类别j和j’的训练样本获得的,比如通过训练属于类别1和6的训练样本得到1-vs-6-SVM分类器,其中类别1和6的三个特征(纹理复杂度、方向复杂度DC和量化步长)作为1-vs-6-SVM分类器的输入。此外,对有向无环图支持向量机DAG-SVM分类器模型测试时,给定的输入样本X,假定输入样本X的类别标签为6,从根节点开始对未知样本进行分类。然后,根据根节点的分类结果,将样本X分类为下一层的左节点或右节点,直到它们到达有向无环图支持向量机DAG-SVM分类器模型的底层为止,输入样本X将经过五个节点,最后将其划分为类别6。如果输入样本X的类别标签为其他类别,则输入样本X也将经过其他五个节点,最后,确定样本X的类别。对于H.266/VVC中的帧内编码,已经离线训练好的有向无环图支持向量机DAG-SVM分类器模型不会生成太多复杂度计算。因此,经过训练的有向无环图支持向量机DAG-SVM分类器模型,可以准确的预测最佳CU分区。最终降低了计算复杂度并节省了编码时间,从而实现H.266/VVC的快速编码。
为了评估本发明的方法,在H.266/VVC编码器(VTM 4.0)上进行了仿真测试。BDBR反映了本发明的压缩性能,节省的时间(△T)体现了复杂性的降低。表2给出了本发明的编码性能,本发明可以节省54.74%编码运行时间,平均BDBR增量为0.93%。因此,本发明可以有效地节省编码时间,并且RD性能的损失可以忽略不计。
表2本发明的编码性能
Figure BDA0002536581120000121
从表2可以看出本发明的与VTM相比RD性能和节省的编码运行时间。本发明可以有效地增加时间节省,并且具有良好的RD性能。与VTM相比,该方法可以减少54.74%的编码时间,同时BDBR可以忽略不计。对于不同的视频序列,可能实验结果可能会有小的波动,但是本发明提出的方法是有效的。
将本发明方法与最新的H.266/VVC快速方法相比较,这些算法包括CTDM、FIVG、FBDA和PDFD方法。图3和图4分别给出了节省编码时间和BDBR的编码结果,由图3和图4可知,本发明方法可以节省时间并具有良好的RD性能,与CTDM、FIVG、FBDA和PDFD方法相比,本发明提出的方法在降低计算复杂度方面具有更高的性能,本发明提出的方法节省了约2.53-42.66%的编码时间。此外,与CTDM、FIVG和FBDA方法相比,本发明提出的方法具有更好的编码效率,可将BDBR降低0.14-0.46%。仿真结果表明,本发明提出的方法对各种视频有效,在性能评估上优于最新快速方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种针对H.266/VVC的快速CU分区决策方法,其特征在于,其步骤如下:
S1、采集大量的视频序列,利用传统编码方法对视频序列进行编码,并在编码过程中记录与CU划分的类别相关的特征,将CU划分的类别及相关的特征作为数据集,其中,CU划分的类别包括不划分、四叉划分、水平二进制划分、垂直二进制划分、水平三进制划分和垂直三进制划分;
S2、利用改进的F-score特征选择方法计算步骤S1中的特征的F-score值,经过计算获得的特征子集包括纹理复杂度、方向复杂度和量化步长,并将CU划分的类别及对应的特征子集作为样本集;
S3、根据样本集构建改进的有向无环图DAG-SVM分类器模型;
S4、计算待划分的CU的纹理复杂度、方向复杂度和量化步长,将纹理复杂度、方向复杂度和量化步长输入步骤S3中的改进的有向无环图DAG-SVM分类器模型中,预测CU最佳划分类别。
2.根据权利要求1所述的针对H.266/VVC的快速CU分区决策方法,其特征在于,所述步骤S2中利用改进的F-score特征选择方法计算步骤S1中的特征的得分值的方法为:
Figure FDA0003500469840000011
其中,Fi表示第i个特征的得分值,
Figure FDA0003500469840000012
表示第j类第l个CU的第i个特征的特征值,l=1,2,…,nj,nj表示第j类的样本个数,j=1,2…,k,k为样本类别数,RN表示特征向量的维数,
Figure FDA0003500469840000013
表示第i个特征的平均值,
Figure FDA0003500469840000014
表示第i个特征在第j类数据集上的平均值。
3.根据权利要求1或2所述的针对H.266/VVC的快速CU分区决策方法,其特征在于,所述根据样本集构建改进的有向无环图DAG-SVM分类器模型的方法为:
S31、分别将样本集中两个类别及其对应的特征子集依次输入SVM模型中进行训练,得到N个SVM分类器,其中,
Figure FDA0003500469840000015
k为样本类别数;
S32、计算各类别的重心:
Figure FDA0003500469840000016
其中,
Figure FDA0003500469840000017
表示第j类的重心,j=1,2…,k,nj表示第j类的样本个数,
Figure FDA0003500469840000018
表示第j类的第l个样本的位置;
S33、根据步骤S32中的各类别的重心计算各类别之间的距离:
Figure FDA0003500469840000021
其中,
Figure FDA0003500469840000022
表示第j'类的重心,j'=1,2…,k,且j'≠j,
Figure FDA0003500469840000023
表示第i个特征第j类的重心,
Figure FDA0003500469840000024
表示第i个特征第j'类的重心,djj'表示第j类与第j'类的距离;
S34、计算第j类与其他类别之间的距离的平均值:
Figure FDA0003500469840000025
其中,ω[j]表示第j类与其他类别的平均距离;
S35、按从大到小的顺序对平均距离ω[j]进行排序,第一位即为平均距离最大值;
S36、将第一位平均距离对应的SVM分类器作为第一层分类器,第二位和第三位平均距离对应的SVM分类器作为第二层分类器,以此类推,得到第k-1层分类器;
S37、将相邻层之间的分类器依次连接,完成了改进的有向无环图DAG-SVM分类器模型的构建。
4.根据权利要求1所述的针对H.266/VVC的快速CU分区决策方法,其特征在于,所述纹理复杂度的计算方法为:
Figure FDA0003500469840000026
其中,NMSE表示CU的相邻均方误差,即CU的纹理复杂度;W表示CU的宽,H表示CU的高,f(m,n)表示CU中的像素在位置(m,n)的亮度值,
Figure FDA0003500469840000027
表示CU中的像素在位置(m,n)的平均亮度值,m表示CU中的像素的横坐标,n表示CU中像素的纵坐标。
5.根据权利要求4所述的针对H.266/VVC的快速CU分区决策方法,其特征在于,所述平均亮度值
Figure FDA0003500469840000028
为:
Figure FDA0003500469840000029
其中,f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值,f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值,f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值,f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值,f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值,f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值,f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值,f(m-1,n)表示CU中的像素在位置(m-1,n)的亮度值。
6.根据权利要求1所述的针对H.266/VVC的快速CU分区决策方法,其特征在于,所述方向复杂度的计算方法为:
Figure FDA0003500469840000031
其中,DC表示CU的方向复杂度,W表示CU的宽,H表示CU的高,G(m,n)表示0°方向的梯度值,G45°(m,n)表示45°方向的梯度值,G90°(m,n)表示90°方向的梯度值,G135°(m,n)表示135°方向的梯度值。
7.根据权利要求6所述的针对H.266/VVC的快速CU分区决策方法,其特征在于,所述梯度值的计算方法为:
Gd(m,n)=Sd*A,
其中,d={0°,45°,90°,135°},
Figure FDA0003500469840000032
表示邻域亮度值矩阵,Sd表示d方向的Sobel算子,f(m-1,n-1)表示CU中的像素在位置(m-1,n-1)的亮度值,f(m-1,n+1)表示CU中的像素在位置(m-1,n+1)的亮度值,f(m,n-1)表示CU中的像素在位置(m,n-1)的亮度值,f(m,n+1)表示CU中的像素在位置(m,n+1)的亮度值,f(m+1,n-1)表示CU中的像素在位置(m+1,n-1)的亮度值,f(m+1,n)表示CU中的像素在位置(m+1,n)的亮度值,f(m+1,n+1)表示CU中的像素在位置(m+1,n+1)的亮度值,f(m-1,n)表示CU中的像素在位置(m-1,n)的亮度值,f(m,n)表示CU中的像素在位置(m,n)的亮度值。
8.根据权利要求1所述的针对H.266/VVC的快速CU分区决策方法,其特征在于,所述量化步长与量化参数之间的转化关系为:
Figure FDA0003500469840000033
其中,QStep表示量化步长,QP表示量化参数。
CN202010534562.XA 2020-06-12 2020-06-12 一种针对h.266/vvc的快速cu分区决策方法 Active CN111654698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010534562.XA CN111654698B (zh) 2020-06-12 2020-06-12 一种针对h.266/vvc的快速cu分区决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010534562.XA CN111654698B (zh) 2020-06-12 2020-06-12 一种针对h.266/vvc的快速cu分区决策方法

Publications (2)

Publication Number Publication Date
CN111654698A CN111654698A (zh) 2020-09-11
CN111654698B true CN111654698B (zh) 2022-03-22

Family

ID=72349102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534562.XA Active CN111654698B (zh) 2020-06-12 2020-06-12 一种针对h.266/vvc的快速cu分区决策方法

Country Status (1)

Country Link
CN (1) CN111654698B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291562B (zh) * 2020-10-29 2022-06-14 郑州轻工业大学 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN112601087B (zh) * 2020-11-23 2022-10-18 郑州轻工业大学 一种针对h.266/vvc的快速cu***模式决策方法
CN112437310B (zh) * 2020-12-18 2022-07-08 重庆邮电大学 一种基于随机森林的vvc帧内编码快速cu划分决策方法
CN112929657B (zh) * 2021-01-22 2022-09-27 郑州轻工业大学 基于梯度与方差的h.266/vvc快速cu划分决策方法
CN113691808A (zh) * 2021-07-01 2021-11-23 杭州未名信科科技有限公司 一种基于神经网络的帧间编码单元尺寸划分方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180428A1 (zh) * 2014-05-29 2015-12-03 华为技术有限公司 帧内预测编码的视频编码方法及视频编码装置
CN105430391A (zh) * 2015-12-04 2016-03-23 上海交通大学 基于逻辑回规分类器的帧内编码单元快速选择方法
WO2019179523A1 (zh) * 2018-03-22 2019-09-26 北京航空航天大学 基于深度学习方法的块分割编码复杂度优化方法及装置
CN111107359A (zh) * 2019-12-16 2020-05-05 暨南大学 一种适用于hevc标准的帧内预测编码单元划分方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180428A1 (zh) * 2014-05-29 2015-12-03 华为技术有限公司 帧内预测编码的视频编码方法及视频编码装置
CN105430391A (zh) * 2015-12-04 2016-03-23 上海交通大学 基于逻辑回规分类器的帧内编码单元快速选择方法
WO2019179523A1 (zh) * 2018-03-22 2019-09-26 北京航空航天大学 基于深度学习方法的块分割编码复杂度优化方法及装置
CN111107359A (zh) * 2019-12-16 2020-05-05 暨南大学 一种适用于hevc标准的帧内预测编码单元划分方法

Also Published As

Publication number Publication date
CN111654698A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111654698B (zh) 一种针对h.266/vvc的快速cu分区决策方法
Li et al. DeepQTMT: A deep learning approach for fast QTMT-based CU partition of intra-mode VVC
CN106162167B (zh) 基于学习的高效视频编码方法
CN106131546B (zh) 一种提前确定hevc合并和跳过编码模式的方法
CN104754357B (zh) 基于卷积神经网络的帧内编码优化方法及装置
CN105306947B (zh) 基于机器学习的视频转码方法
CN111462261B (zh) 针对h.266/vvc的快速cu分区和帧内决策方法
CN106713935A (zh) 一种基于贝叶斯决策的hevc块划分快速方法
Cuevas Block-matching algorithm based on harmony search optimization for motion estimation
CN111479110B (zh) 针对h.266/vvc的快速仿射运动估计方法
Chen et al. A novel fast intra mode decision for versatile video coding
Zhang et al. Fast CU partition decision for H. 266/VVC based on the improved DAG-SVM classifier model
CN109361920B (zh) 一种面向多场景的自适应决策树选择的帧间快速预测算法
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
CN112291562B (zh) 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN109729351B (zh) 一种低复杂度配置下的hevc快速模式选择方法
Blanch et al. Chroma intra prediction with attention-based CNN architectures
CN108989799A (zh) 一种编码单元参考帧的选择方法、装置及电子设备
CN116489386A (zh) 一种基于参考块的vvc帧间快速编码方法
CN107690069A (zh) 一种数据驱动的级联视频编码方法
Zhang et al. A GCN-based fast CU partition method of intra-mode VVC
Li et al. Fast CU decision algorithm based on texture complexity and CNN for VVC
Lu et al. Fast algorithm for CU partitioning and mode selection in HEVC intra prediction
Zhao et al. A Fast Decision Algorithm for VVC Intra‐Coding Based on Texture Feature and Machine Learning
CN110971896B (zh) 一种h.265编码方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant