CN113099226B - 面向智慧法院场景的多层次感知视频编码算法优化方法 - Google Patents

面向智慧法院场景的多层次感知视频编码算法优化方法 Download PDF

Info

Publication number
CN113099226B
CN113099226B CN202110384146.0A CN202110384146A CN113099226B CN 113099226 B CN113099226 B CN 113099226B CN 202110384146 A CN202110384146 A CN 202110384146A CN 113099226 B CN113099226 B CN 113099226B
Authority
CN
China
Prior art keywords
quantization
parameter
control
algorithm
perception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110384146.0A
Other languages
English (en)
Other versions
CN113099226A (zh
Inventor
殷海兵
周华健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110384146.0A priority Critical patent/CN113099226B/zh
Publication of CN113099226A publication Critical patent/CN113099226A/zh
Application granted granted Critical
Publication of CN113099226B publication Critical patent/CN113099226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了面向智慧法院场景的多层次感知视频编码算法优化方法,包括如下步骤:S1,构建多层次感知编码框架,通过结合内容自适应比特分配、时域感知量化控制和空域感知量化控制,实现感知码率控制,通过心理视觉率失真优化,实现有效帧内和帧间预测的模式决策,通过系数级心理视觉率失真优化量化,实现系数级感知量化;S2,模块间相关性分析,度量模块间相关性的定量参数,评估两个算法模块之间的影响程度,通过选择关键控制参数,将复杂的多模块优化转化为连续的单模块优化,确定多个可定制模块的算法决策顺序;S3,构建在线自适应参数模型,利用模块间的内在关联性构建内容自适应的参数计算模型。

Description

面向智慧法院场景的多层次感知视频编码算法优化方法
技术领域
本发明涉及视频编码领域,尤其是涉及面向智慧法院场景的多层次感知视频编码算法优化方法。
背景技术
智慧法院庭审、调解、执行等多个业务环节都需要录制视频,并根据视频进行浏览、分析、智能化处理,以提高法院业务智能化水平。众多案件案例导致视频存储管理面临较大压力,继续进一步压缩视频数据,以提升法院业务视频处理能力。
在过去的三十多年中,视频编码标准极大地加速了视频应用。视频压缩通过去除原始视频序列中的冗余来实现,基于信号处理的视频编码技术正逐渐接近压缩上限,编码性能的提高是以计算复杂度呈指数级增加为代价的。相比较而言,在进一步消除感知冗余方面,还有可挖掘的潜力。人类视觉***(HVS)是重构视频的视觉质量的最终判断者,并且它具有几个重要的感知特性,可以利用这些特性来提高编码性能而不会显著降低感知质量。
在视频编码算法定制和优化方面,有两个阶段的任务,算法框架(算法控制流程)和关键算法参数选择。前一个任务是设计使用什么样的算法,例如运动估计模块中的全搜索、三步搜索和菱形搜索。后一项任务是在给定算法流程的情况下,通过权衡率失真性能和计算复杂度来确定最佳控制参数,例如选择搜索范围,给定菱形搜索算法的参考像素精度。一般来说,这两个任务在单模块级算法优化中是联合考虑的,在***级算法优化的情况下,多个算法可定制模块应该被共同优化,这是一个非常复杂的问题。率失真优化(RDO)被广泛用作视频编码器中多层次可定制模块的算法优化的理论基石,包括码率控制、模式决策、运动估计、变换和量化。这些相互作用的模块之间存在着复杂的模块间关系。
目前的研究只针对于单个模块的算法优化进行了深入的研究,如量化、模式决策、运动估计和码率控制。从深度优化的角度来看,学术界对多层次感知编码的研究仍然不足,模块间相关性分析和多层次感知编码的联合优化在开放文献中仍然难以捉摸,包括如下技术问题:
(1)缺少一个多层次感知编码算法框架;
(2)多层次感知编码框架的各算法模块之间存在着复杂的关系,如何定量的确定模块间的相关性用于评估模块间的影响程度;
(3)如何通过一种方法来确定多个可定制模块的算法决策顺序,通过选择一系列关键控制参数,来实现将复杂的多模块优化问题转化为连续的单模块优化问题。
(4)如何利用模块间的内在关联性,提出一个内容自适应的参数计算模型,以实现在线自适应多模块联合优化。
发明内容
为解决现有技术的不足,实现提高视频的感知质量的目的,本发明采用如下的技术方案:
面向智慧法院场景的多层次感知视频编码算法优化方法,包括如下步骤:
S1,构建多层次感知编码框架,通过结合内容自适应比特分配、时域感知量化控制和空域感知量化控制,实现感知码率控制,通过心理视觉率失真优化,实现感知RDO意义上的有效帧内和帧间预测的模式决策,通过系数级心理视觉率失真优化量化,实现系数级感知量化;
所述内容自适应比特分配,通过结合基于滑动窗口的lookahead预分析和帧级感知复杂度测量实现,预分析采用简化的运动估计和模式决策来跟踪编码视频的时空特征,帧级感知复杂度测量是通过测量感知比特分配的感知模糊复杂度,采用感知复杂度量化模型,获得帧级量化参数Qpfrm,实现帧级量化控制;
所述时域感知量化控制,通过时域Qp级联,分析内容自适应比特分配,以减少时域失真波动,它是在基于lookahead预分析的视频内容分析的帮助下实现的,并且获得用于时域精细量化控制的自适应调整Qp的ΔQpTemp
所述空域感知量化控制,利用空间掩蔽效应,通过内容自适应比特分配来说明空域量化控制,它采用量化调整参数ΔQpVAQ,自适应调整Qp进行空域细粒度量化控制;
最终,得到最终量化参数ΔQpfinal
ΔQpfinal=Qpfrm+ΔQpTemp+ΔQpVAQ (1)
所述心理视觉率失真优化,通过改进的感知失真度量DRDO代替传统的MSE;
所述心理视觉率失真优化量化,通过感知失真度量Dquant代替传统的MSE;
S2,模块间相关性分析,度量模块间相关性的定量参数,评估两个算法模块之间的影响程度,通过选择一系列关键控制参数,将复杂的多模块优化问题转化为连续的单模块优化问题,确定多个可定制模块的算法决策顺序,并提出了一种通过权衡率失真性能来搜索参数集的方案;
S3,构建在线自适应参数模型,利用模块间的内在关联性构建内容自适应的参数计算模型。
进一步地,所述内容自适应比特分配,是帧级比特分配和量化控制,复杂度自适应比特分配,通过利用包括时域对比度敏感函数和时域掩蔽效应的粗粒度HVS特性来实现帧级量化控制,从开源MPEG-4xvid和H.264AVC x264编码器中采用的经验模型继承而来,这项工作使用qcomp域压缩模型测量感知内容复杂度,原始的基于SATD的复杂度Cplx使用Cplx1 -qcomp模型进行压缩,qcomp是在[0.5,1]之间压缩常数,用于压缩Cplx的,通过调整码率缩放因子Rfactor,动态地估计帧级缩放的量化步长qscale:
Figure GDA0003857928350000031
在H.264/AVC和H.265/HEVC标准中,量化参数Qp通过公式(3)映射到qscale:
Figure GDA0003857928350000032
其中,c是常数,根据公式(2)和(3),得到帧级量化参数Qpfrm
Figure GDA0003857928350000033
这种模糊复杂度压缩模型受到时域HVS特征的启发,具有高度模糊复杂度的区域具有复杂纹理或高运动的区域。HVS对这些区域的高频分量失真不敏感。因此,这些区域的失真相对不容易被感知,也就是说,这些复杂的区域可以隐藏更大的编码失真,分配给这些复杂区域的目标码率将通过压缩复杂度来降低,并且这些节省的码率可以分配给人眼更敏感的区域,由此实现了感知自适应的比特分配和量化控制,并且在HVS感知的意义上提高了编码RpD性能。
进一步地,所述时域感知量化控制,是时域量化参数级联,在视频编码中,由于图像组(GOP)中的连续帧间预测,I帧和前面的P帧的失真被传播到后面的P帧和B帧中,对于帧间预测,参考帧的质量显然对当前帧质量有直接影响,为了减少时域失真传播以提高视频的视觉质量,就要保证I帧和前面的P帧失真较小,x264和x265采用MBTree和CUTree量化控制算法,以充分利用HVS特性,根据参考重要性权重,包括参数θTemp、ζintra、γpropagate,自适应地在编码单元(宏块和CU)之间分配目标码率,以平滑时间失真波动,参考重要性权重用于调整编码块的QP,ΔQpTemp计算公式为:
Figure GDA0003857928350000034
其中,θTemp是量化控制算法的控制强度参数,ζintra是基于SATD的帧内预测代价,γpropagate是帧间传递代价,测量当前块对以它为参考的块的传递代价。
进一步地,所述空域感知量化控制,是方差自适应量化,空间掩蔽是HVS的一个重要特征,人眼对平坦区域的失真比对高纹理区域的失真更敏感,这种特性通常用于辅助空间自适应量化,利用空域掩蔽效应,VAQ算法平滑了纹理平坦区域中相邻块间的畸变波动,减少了相对平坦区域的模糊效应,具有平坦纹理的区域的感知质量改善是以具有复杂纹理的区域中的质量退化为代价来实现的,VAQ与时域Qp级联算法协作,以实现块级感知量化控制,在x265中,VAQ算法有4种模式,总体的ΔQpVAQ的计算如下:
ΔQpVAQ=θVAQ×(var-varadjust) (6)
其中,θVAQ是方差自适应量化的控制强度参数,var和varadjust分别是当前块的方差和方差调整值。
进一步地,所述心理视觉率失真优化,将J'1=DRDO1×R1取代传统的RDO编码J1=D11×R1,λ1表示心理视觉率失真优化的拉格朗日因子,R1表示心理视觉率失真优化的编码比特数,因此可以实现基于感知RDO的模式决策,以从候选模式中确定感知最优的编码模式;
所述心理视觉率失真优化(Psyrdo),视觉研究表明,人眼不仅希望重建图像看起来与原始图像相似,还希望图像具有相似的内容复杂度,也就是说,我们宁愿看到一个有些扭曲但仍然详细的块,而不是一个没有扭曲但完全模糊的块,在Psyrdo算法中,SSD(SingleShot MultiBox Detector是一种单阶段目标检测算法)被感知失真DRDO所代替,计算如下:
DRDO=SSD+λpsy_rdo×psyrdo×psycost (7)
其中,λpsy_rdo是与量化参数相关的控制参数,psyrdo是心理视觉率失真优化的控制强度参数,psycost是原始块与重建块之间的能量差,定义如下:
Figure GDA0003857928350000041
其中,SATD、SAD用于度量块复杂度失真,下标rec和ori分别表示重构块和原始块。
进一步地,所述心理视觉率失真优化量化,将J’2=Dquant2×R2取代传统的RDO编码J2=D22×R2,λ2表示心理视觉率失真优化量化的拉格朗日因子,R2表示心理视觉率失真优化量化的编码比特数;
所述心理视觉率失真优化量化(psyquant),在传统的硬判决量化(HDQ)算法中,不考虑一个块内相邻系数之间的系数间相关性,为了在CABAC中进行上下文编码,每个离散余弦变换(DCT)系数的量化强度本质上不仅取决于如何量化其相邻的DCT系数,还取决于如何对所有量化的DCT系数进行熵编码。由此提出软判决量化(SDQ)来实现系数级率失真优化量化,SDQ采用诸如维特比搜索算法的动态规划,并将复杂的多效率优化量化问题转换成基于网格的最短路径搜索问题,基于RDOQ的感知失真Dquant计算如下:
Dquant=diff×diff-psyrdoq×|trec| (9)
其中,diff×diff是标准的SSD,psyrdoq×|trec|是心理视觉率失真优化量化的控制强度和DCT反变换后得到重构系数的乘积。
进一步地,所述模块间相关性分析,基于内容自适应比特分配(qcomp域复杂度的帧级量化控制)、时域感知量化控制(树型时域Qp级联cutree)、空域感知量化控制(VAQ)、心理视觉率失真优化(Psyrdo)和心理视觉率失真优化量化(psyquant)的算法模块,通过算法模块的关键参数,定量测试算法模块之间的相互影响。
进一步地,所处时域感知量化控制的参数cutreestrength和所述内容自适应比特分配的参数qcomp之间的关系为:
cutreestrength=5×(1-qcomp) (10)
其中,cutreestrength是量化控制算法的控制强度参数,qcomp是压缩常数。
进一步地,对于取值连续的参数,通过设置离散步长,将取值范围离散化为多个参数取值,由于计算出参数组合数量非常庞大,因此,必须设计一个方法来简化复杂的多模块算法优化问题,两个算法模块修改导致的RD性能改变量分别为νi和νj,νi或νj是模块i或j开启时相对于所有感知编码工具都关闭时的平均BD-VMAF差值,相比之下,ν是模块i和j共同开启时相对于所有感知编码工具都关闭时的平均BD-VMAF差值,定义两个算法模块之间的模块间相关性为:
φij=ν-(νij) (11)。
通过实验得知两个模块算法同时定制产生的RD性能变化和两个模块单独定制产生的RD性能变化是不相等的,因此每个模块的算法修改对于整体编码RD性能的影响并不满足线性关系,也就是说,模块之间的性能会发生耦合作用。
在获得每个算法模块的不同φij之后,定义单个模块的模块间相关性级别为:
Figure GDA0003857928350000051
根据θi的大小来确定各算法模块决策的优先级别,按照优先级别从大到小来依次优化每个模块的相关参数。这样,复杂的多模块联合优化问题便化简成为连续的单模块优化问题,参数组合数量也得到大幅减少。
进一步地,所述构建在线自适应参数模型,通过对模块间相关性的分析得知,单个模块的算法修改对于整体编码RD性能的影响不满足线性关系,两个模块间的相关性有正有负,且不同视频序列的相关性φij大小不同,即相关性大小依赖于视频内容,通过表征图像内容的特征参数ωj,将公式(6)中的var作为ω1,将公式(5)中的γpropagate作为ω2,将公式(7)中的psycost作为ω3,将公式(9)中的|trec|作为ω4,将公式(2)中的Cplx作为ω5,此外,在输出码率分布不同的情况下,不同的参数组合会导致不同的感知编码性能,根据上述两个结果,为了进一步改善离线优化后的结果,在离线优化所得到的参数组合的基础上,为五个非离散参数构建内容自适应参数偏移模型:
Figure GDA0003857928350000061
其中,a和b是常量,φij是两个模块之间模块间相关性,ωj是每个模块中表征图像内容的特征参数,βi是用于控制每个参数动态范围的参数,
Figure GDA0003857928350000062
是描述Δpi与其对应的码率改变量ΔRi之间关系的函数,h(ωj)是描述Δωj与其对应的码率改变量ΔRj之间关系的函数,同时考虑φij、ωj
Figure GDA0003857928350000063
h(ωj)的影响,根据图像内容自适应调整非离散参数的取值,通过等效降低码率使多个感知编码参数组合达到最优值。
本发明的优势和有益效果在于:
(1)本发明从多层次联合优化的角度考虑感知编码。一方面,感知视频编码是从低到高分层实现的,从量化、码率控制到模式选择等;另一方面,定量地研究了多层次可定制算法模块之间的复杂相关性。
(2)根据每个模块的模块间相关性级别,确定了所有模块的算法决策优先级,可以将复杂的多模块联合优化问题简化成为连续的单模块优化问题。大大降低了多层次感知视频编码算法优化的实现难度。
(3)利用模块间的内在关联性,提出了一个内容自适应的参数计算模型,实现了在线自适应多模块联合优化。
(4)本发明所提出的基于模块间相关性的多模块优化方法,与x265的Slow预设相比,可以在给定相同码率的条件下得到更好的视觉感知质量。
附图说明
图1是本发明的多层次感知视频编码优化流程图。
图2a是本发明中多层次感知编码工具之间的相互关系图。
图2b是本发明中多层次感知编码工具之间的相互关系原理图。
图3是本发明中多层次感知编码框架结构图。
图4是本发明中模块之间相互关系图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,面向智慧法院场景的多层次感知视频编码算法优化方法,首先,通过对成熟算法的继承和整合发展,提出了一个算法框架,通过为所有可定制的模块继承成熟且经过充分验证的算法流程,提出多层次感知编码的框架,包括帧级比特分配和量化控制(qcomp),时域量化参数级联(cutree),空域方差自适应量化(VAQ),心理视觉率失真优化(psyrdo),心理视觉率失真优化量化(psyrdoq)。
其次,提出了一个度量模块间相关性的定量参数,用于评估两个算法模块之间的影响程度,五个感知编码模块之间存在着复杂的关系,为了能定量测试模块之间的相互影响,算法优化实际上是通过选择这些模块的关键参数来实现的,从而计算出每个模块的模块间相关性级别。
再次,提出一种新的方法来确定多个可定制模块的算法决策顺序,根据五个模块算法决策的相关性级别,按照优先级别从大到小来依次优化每个模块的相关参数,通过选择一系列关键控制参数来实现将复杂的多模块优化问题转化为连续的单模块优化问题,并提出了一种通过权衡率失真性能来搜索参数集的方案;
最后,通过利用模块间的内在关联性设计一个内容自适应的参数计算模型,对于不同的测试序列,其模块间相关性也不尽相同,说明率感知失真(RpD)性能与视频的内容有关,所以从五个感知编码模块中提取出与视频内容相关的特征参数,并且考虑到码率对不同参数组合编码性能的影响,设计了一个内容自适应的参数计算模型。
1.多层次感知编码框架
有多个视频标准没有规定实现细节的算法定制模块,包括系数级量化、块级模式决策以及帧和GOP级码率控制等。量化直接决定了编码速率和失真,从而影响率失真量化行为,这对于评估模式决策和码率控制中的拉格朗日编码代价非常重要。模式决策和码率控制也是高度相关的,码率控制旨在确定空时域中的量化参数链,从而确定失真分布和编码码率消耗分布,准确的码率控制应该通过有效的感知内容自适应比特分配来实现。在RD优化模式决策中,拉格朗日乘数通常取决于码率控制确定的量化参数。如图2a、b所示,为相互依赖的模块之间的关系,多个可定制模块共同影响编码性能,它们之间存在复杂的关系,这些模块之间的模块间影响机制对于多模块算法同时优化至关重要。然而,这种内在的工作机制非常复杂,时空率失真传播加剧了这一困难。根据模块间的关联程度,不同的模块具有不同的算法定制优先级。如果将动态优化应用于多层次可定制模块性能优化,其计算复杂度太高,无法实时实现,需要采用次优但复杂度可接受的算法定制方法。
在这里,我们通过为所有可定制的模块继承成熟且经过充分验证的算法流程,提出了多层次感知编码的框架,如图3所示。感知码率控制是通过结合内容自适应比特分配(缩写为qcomp)、时域感知量化控制(量化参数级联,缩写为cutree)和空域感知量化控制(方差自适应量化,缩写为VAQ)来实现的。内容自适应比特分配是通过结合基于滑动窗口的lookahead分析和帧级感知复杂度测量来实现的。预分析模块采用简化的运动估计和模式决策来跟踪待编码视频的时空特征。统计信息用于测量感知比特分配的感知模糊复杂度。通过采用感知复杂度量化模型来获得帧级量化参数Qpfrm,实现了帧级量化控制。时域Qp级联分析内容自适应比特分配,以减少时域失真波动。它是在基于lookahead的视频内容分析的帮助下实现的,并且获得了用于时域精细量化控制的自适应调整Qp的ΔQpTemp。此外,通过充分利用空间掩蔽效应,VAQ被用于通过内容自适应比特分配来说明空域量化控制,它采用量化调整参数ΔQpVAQ来自适应调整Qp进行空域细粒度量化控制。最终的量化参数ΔQpfinal计算如下:
ΔQpfinal=Qpfrm+ΔQpTemp+ΔQpVAQ (1)
心理视觉率失真优化,缩写为psy-rdo,用于实现感知RDO意义上的有效帧内和帧间预测的模式决策,通过使用改进的感知失真度量DRDO代替传统的MSE。所以,传统的RDO编码成本J1=D11×R1被J'1=DRDO1×R1所取代,因此可以实现基于感知RDO的模式决策,以从候选模式中确定感知最优的编码模式。类似地,系数级心理视觉率失真优化量化,简写为psy-quant,被用来实现系数级感知量化,感知失真度量Dquant被用来代替传统的MSE。类似的,传统的RDO成本J2=D22×R2被类似的J’2=Dquant2×R2所取代。下面详细分析这些算法模块。
(1)帧级比特分配和量化控制(qcomp)
复杂度自适应比特分配通过利用包括时域对比度敏感函数和时域掩蔽效应的粗粒度HVS特性来实现帧级量化控制。从开源MPEG-4xvid和H.264AVC x264编码器中采用的经验模型继承而来,这项工作使用qcomp域压缩模型测量感知内容复杂度,原始的基于SATD的复杂度Cplx使用Cplx1-qcomp模型进行压缩,然后,通过调整码率缩放因子Rfactor来动态地估计帧级缩放的量化步长qscale:
Figure GDA0003857928350000091
在H.264/AVC和H.265/HEVC标准中,量化参数Qp通过公式
Figure GDA0003857928350000092
映射到qscale。这里,c是一个常数。根据公式(2)和(3),帧级量化参数Qpfrm的计算公式如下:
Figure GDA0003857928350000093
这种模糊复杂度压缩模型受到时域HVS特征的启发,具有高度模糊复杂度的区域具有复杂纹理或高运动的区域。HVS对这些区域的高频分量失真不敏感。因此,这些区域的失真相对不容易被感知,也就是说,这些复杂的区域可以隐藏更大的编码失真,分配给这些复杂区域的目标码率将通过压缩复杂度来降低,并且这些节省的码率可以分配给人眼更敏感的区域,由此实现了感知自适应的比特分配和量化控制,并且在HVS感知的意义上提高了编码RpD性能。
(2)时域量化参数级联(cutree)
在视频编码中,由于图像组(GOP)中的连续帧间预测,I帧和前面的P帧的失真被传播到后面的P帧和B帧中,对于帧间预测,参考帧的质量显然对当前帧质量有直接影响,为了减少时域失真传播以提高视频的视觉质量,就要保证I帧和前面的P帧失真较小,x264和x265采用MBTree和CUTree量化控制算法,以充分利用HVS特性。这种算法根据参考重要性权重自适应地在编码单元(宏块和CU)之间分配目标码率,以平滑时间失真波动,参考重要性权重用于调整编码块的QP。ΔQpTemp计算公式为:
Figure GDA0003857928350000094
其中,θTemp是控制强度参数,ζintra是基于SATD的帧内预测代价,γpropagate是帧间传递代价,测量当前块对以它为参考的块的传递代价。
(3)方差自适应量化(VAQ)
空间掩蔽是HVS的一个重要特征。人眼对平坦区域的失真比对高纹理区域的失真更敏感,这种特性通常用于辅助空间自适应量化。利用空域掩蔽效应,VAQ算法平滑了纹理平坦区域中相邻块间的畸变波动,减少了相对平坦区域的模糊效应,例如足球场上的草地。具有平坦纹理的区域的感知质量改善是以具有复杂纹理的区域中的质量退化为代价来实现的,一般来说,VAQ与时域Qp级联算法协作,以实现块级感知量化控制。在x265中,VAQ算法有4种模式。总体的ΔQpVAQ的计算由下式给出:
ΔQpVAQ=θVAQ×(var-varadjust) (6)
其中,θVAQ是控制强度参数,var和varadjust分别是当前块的方差和方差调整值。
(4)心理视觉率失真优化(Psyrdo)
视觉研究表明,人眼不仅希望重建图像看起来与原始图像相似,还希望图像具有相似的内容复杂度。也就是说,我们宁愿看到一个有些扭曲但仍然详细的块,而不是一个没有扭曲但完全模糊的块。在Psyrdo算法中,SSD被感知失真DRDO所代替,计算如下:
DRDO=SSD+λpsy_rdo×psyrdo×psycost (7)
其中,psyrdo是控制强度参数,λpsy_rdo是与量化参数相关的控制参数,psycost为原始块与重建块之间的能量差,定义如下:
Figure GDA0003857928350000101
(5)心理视觉率失真优化量化(psyquant)
在传统的硬判决量化中(HDQ)算法中,不考虑一个块内相邻系数之间的系数间相关性。为了在CABAC中进行上下文编码,每个离散余弦变换(DCT)系数的量化强度本质上不仅取决于如何量化其相邻的DCT系数,还取决于如何对所有量化的DCT系数进行熵编码。考虑到这个问题,提出了软判决量化(SDQ)来实现系数级率失真优化量化。SDQ采用诸如维特比搜索算法的动态规划,并将复杂的多效率优化量化问题转换成基于网格的最短路径搜索问题。基于RDOQ的感知失真Dquant计算如下:
Dquant=diff×diff-psyrdoq×|trec| (9)
其中,前一项是标准的SSD,后一项是控制强度和DCT反变换后得到重构系数的乘积。
2.模块间相关性分析
如上所述,基于qcomp域复杂度的帧级量化控制(qcomp)、树型时域Qp级联(cutree)、空域方差自适应量化(VAQ)、心理视觉率失真优化(Psyrdo)和心理视觉率失真优化量化(psyquant)被并入感知编码的算法框架。由于复杂的HVS特性和模块间的相互关系,如何在联合优化的意义上定制五个算法可定制模块是一个挑战。为了能定量测试模块之间的相互影响,算法优化实际上是通过选择这些模块的关键参数来实现的,每个模块中涉及到的相关参数都在表1中列出。其中,cutreestrength和qcomp之间的关系为:
cutreestrength=5×(1-qcomp) (10)
对于取值连续的参数,如AQstrength的取值范围为0-3,可以将其取步长为0.1离散化为31个参数取值,表1中给出了离散步长。假设一共有M个参数,并且为第m个参数定义了Km个离散解,使用表1中的步长,可以计算出参数组合数量为1.04×109((4×30+1)×2×(6×50+1)×(2×140+1)×51),数量非常庞大,因此,必须设计一个方法来简化复杂的多模块算法优化问题。
表1五个模块中涉及到的相关参数
Figure GDA0003857928350000111
假设两个模块算法修改导致的RD性能改变量分别为νi和νj,如图4所示,νij)是模块i(j)开启时相对于所有感知编码工具都关闭时的平均BD-VMAF差值。相比之下,ν是模块i和j共同开启时相对于所有感知编码工具都关闭时的平均BD-VMAF差值。定义两个算法模块之间的模块间相关性为:
φij=ν-(νij) (11)
通过实验得知两个模块算法同时定制产生的RD性能变化和两个模块单独定制产生的RD性能变化是不相等的,因此每个模块的算法修改对于整体编码RD性能的影响并不满足线性关系,也就是说,模块之间的性能会发生耦合作用。
在获得每个模块的不同φij之后,定义单个模块的模块间相关性级别为:
Figure GDA0003857928350000121
根据θi的大小来确定五个模块算法决策的优先级别,按照优先级别从大到小来依次优化每个模块的相关参数。这样,复杂的多模块联合优化问题便化简成为连续的单模块优化问题,表1中的参数组合数量也减少为756((4×30+1)+2+(6×50+1)+(2×140+1)+51)。
3.在线自适应参数模型
通过对模块间相关性的分析得知,单个模块的算法修改对于整体编码RD性能的影响不满足线性关系,两个模块间的相关性有正有负,且不同视频序列的相关性φij大小不同,即相关性大小依赖于视频内容。本文确定了表征图像内容的特征参数ωj,将公式(6)中的var作为ω1,将公式(5)中的γpropagate作为ω2,将公式(7)中的psycost作为ω3,将公式(8)中的|trec|作为ω4,将公式(2)中的Cplx作为ω5。此外,在输出码率分布不同的情况下,不同的参数组合会导致不同的感知编码性能。根据上述两个结果,为了进一步改善上一节中离线优化后的结果,在上一节离线优化所得到的参数组合的基础上,为五个非离散参数设计了一个内容自适应参数偏移模型:
Figure GDA0003857928350000122
其中,a和b是常量,φij是两个模块之间模块间相关性,ωj是每个模块中表征图像内容的特征参数,βi是用于控制每个参数动态范围的参数,
Figure GDA0003857928350000123
是描述Δpi与其对应的码率改变量ΔRi之间关系的函数,h(ωj)是描述Δωj与其对应的码率改变量ΔRj之间关系的函数。本发明提出的参数偏移模型同时考虑了φij、ωj
Figure GDA0003857928350000124
h(ωj)的影响,根据图像内容来自适应调整非离散参数的取值,通过等效降低码率来使多个感知编码参数组合达到最优值。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (6)

1.面向智慧法院场景的多层次感知视频编码算法优化方法,其特征在于包括如下步骤:
S1,构建多层次感知编码框架,通过结合内容自适应比特分配、时域感知量化控制和空域感知量化控制,实现感知码率控制,通过心理视觉率失真优化,实现有效帧内和帧间预测的模式决策,通过系数级心理视觉率失真优化量化,实现系数级感知量化;
所述内容自适应比特分配,通过结合基于滑动窗口的lookahead预分析和帧级感知复杂度测量实现,帧级感知复杂度测量是通过测量感知比特分配的感知模糊复杂度,采用感知复杂度量化模型,获得帧级量化参数Qpfrm
所述时域感知量化控制,通过时域量化参数Qp级联,分析内容自适应比特分配,基于lookahead预分析的视频内容分析,获得用于时域精细量化控制的自适应调整Qp的ΔQpTemp
所述空域感知量化控制,利用空间掩蔽效应,通过内容自适应比特分配,量化调整参数ΔQpVAQ,自适应调整Qp进行空域细粒度量化控制;
得到最终量化参数ΔQpfinal
ΔQpfinal=Qpfrm+ΔQpTemp+ΔQpVAQ (1)
所述心理视觉率失真优化,通过改进的感知失真度量DRDO代替传统的MSE;心理视觉率失真优化,将J'1=DRDO1×R1取代传统的RDO编码J1=D11×R1,λ1表示心理视觉率失真优化的拉格朗日因子,R1表示心理视觉率失真优化的编码比特数;
在Psyrdo算法中,SSD被感知失真DRDO所代替,计算如下:
DRDO=SSD+λpsy_rdo×psyrdo×psycost (7)
其中,λpsy_rdo是与量化参数相关的控制参数,psyrdo是心理视觉率失真优化的控制强度参数,psycost是原始块与重建块之间的能量差,定义如下:
Figure FDA0003857928340000011
其中,SATD、SAD用于度量块复杂度失真,下标rec和ori分别表示重构块和原始块;
所述心理视觉率失真优化量化,通过感知失真度量Dquant代替传统的MSE;心理视觉率失真优化量化,将J’2=Dquant2×R2取代传统的RDO编码J2=D22×R2,λ2表示心理视觉率失真优化量化的拉格朗日因子,R2表示心理视觉率失真优化量化的编码比特数;
基于RDOQ的感知失真Dquant计算如下:
Dquant=diff×diff-psyrdoq×|trec| (9)
其中,diff×diff是标准的SSD,psyrdoq×|trec|是心理视觉率失真优化量化的控制强度和DCT反变换后得到重构系数的乘积;
S2,模块间相关性分析,度量模块间相关性的定量参数,评估两个算法模块之间的影响程度,通过选择关键控制参数,将复杂的多模块优化转化为连续的单模块优化,确定多个可定制模块的算法决策顺序;所述模块间相关性分析,基于内容自适应比特分配、时域感知量化控制、空域感知量化控制、心理视觉率失真优化和心理视觉率失真优化量化的算法模块,通过算法模块的关键参数,定量测试算法模块之间的相互影响;
对于取值连续的参数,通过设置离散步长,将取值范围离散化为多个参数取值,两个算法模块修改导致的RD性能改变量分别为νi和νj,νi或νj是模块i或j开启时相对于所有感知编码工具都关闭时的平均BD-VMAF差值,ν是模块i和j共同开启时相对于所有感知编码工具都关闭时的平均BD-VMAF差值,定义两个算法模块之间的模块间相关性为:
φij=ν-(νij) (11)
在获得每个算法模块的不同φij之后,定义单个模块的模块间相关性级别为:
Figure FDA0003857928340000021
根据θi的大小来确定各算法模块决策的优先级别,按照优先级别从大到小来依次优化每个模块的相关参数;
S3,构建在线自适应参数模型,利用模块间的内在关联性构建内容自适应的参数计算模型。
2.如权利要求1所述的面向智慧法院场景的多层次感知视频编码算法优化方法,其特征在于所述内容自适应比特分配,是帧级比特分配和量化控制,使用qcomp域压缩模型测量感知内容复杂度,原始的复杂度Cplx使用Cplx1-qcomp模型进行压缩,qcomp是压缩常数,通过调整码率缩放因子Rfactor,动态地估计帧级缩放的量化步长qscale:
Figure FDA0003857928340000022
量化参数Qp通过公式(3)映射到qscale:
Figure FDA0003857928340000031
其中,c是常数,根据公式(2)和(3),得到帧级量化参数Qpfrm
Figure FDA0003857928340000032
3.如权利要求1所述的面向智慧法院场景的多层次感知视频编码算法优化方法,其特征在于所述时域感知量化控制,是时域量化参数级联,根据参考重要性权重,自适应地在编码单元之间分配目标码率,参考重要性权重用于调整编码块的QP,ΔQpTemp计算公式为:
Figure FDA0003857928340000033
其中,θTemp是量化控制算法的控制强度参数,ζintra是基于SATD的帧内预测代价,γpropagate是帧间传递代价,测量当前块对以它为参考的块的传递代价。
4.如权利要求1所述的面向智慧法院场景的多层次感知视频编码算法优化方法,其特征在于所述空域感知量化控制,是方差自适应量化,总体的ΔQpVAQ的计算如下:
ΔQpVAQ=θVAQ×(var-varadjust) (6)
其中,θVAQ是方差自适应量化的控制强度参数,var和varadjust分别是当前块的方差和方差调整值。
5.如权利要求1所述的面向智慧法院场景的多层次感知视频编码算法优化方法,其特征在于所述时域感知量化控制的参数cutreestrength和所述内容自适应比特分配的参数qcomp之间的关系为:
cutreestrength=5×(1-qcomp) (10)
其中,cutreestrength是量化控制算法的控制强度参数,qcomp是压缩常数。
6.如权利要求1所述的面向智慧法院场景的多层次感知视频编码算法优化方法,其特征在于
内容自适应比特分配,是帧级比特分配和量化控制,使用qcomp域压缩模型测量感知内容复杂度,原始的复杂度Cplx使用Cplx1-qcomp模型进行压缩,qcomp是压缩常数,通过调整码率缩放因子Rfactor,动态地估计帧级缩放的量化步长qscale:
Figure FDA0003857928340000034
时域感知量化控制,是时域量化参数级联,根据参考重要性权重,自适应地在编码单元之间分配目标码率,参考重要性权重用于调整编码块的QP,ΔQpTemp计算公式为:
Figure FDA0003857928340000041
其中,θTemp是量化控制算法的控制强度参数,ζintra是基于SATD的帧内预测代价,γpropagate是帧间传递代价,测量当前块对以它为参考的块的传递代价;
空域感知量化控制,是方差自适应量化,总体的ΔQpVAQ的计算如下:
ΔQpVAQ=θVAQ×(var-varadjust) (6)
其中,θVAQ是方差自适应量化的控制强度参数,var和varadjust分别是当前块的方差和方差调整值;
心理视觉率失真优化,将J'1=DRDO1×R1取代传统的RDO编码J1=D11×R1,λ1表示心理视觉率失真优化的拉格朗日因子,R1表示心理视觉率失真优化的编码比特数;
所述心理视觉率失真优化,在Psyrdo算法中,SSD被感知失真DRDO所代替,计算如下:
DRDO=SSD+λpsy_rdo×psyrdo×psycost (7)
其中,λpsy_rdo是与量化参数相关的控制参数,psyrdo是心理视觉率失真优化的控制强度参数,psycost是原始块与重建块之间的能量差;
所述心理视觉率失真优化量化,基于RDOQ的感知失真Dquant计算如下:
Dquant=diff×diff-psyrdoq×|trec| (9)
其中,diff×diff是标准的SSD,psyrdoq×|trec|是心理视觉率失真优化量化的控制强度和DCT反变换后得到重构系数的乘积;
所述构建在线自适应参数模型,通过表征图像内容的特征参数ωj,将公式(6)中的var作为ω1,将公式(5)中的γpropagate作为ω2,将公式(7)中的psycost作为ω3,将公式(9)中的|trec|作为ω4,将公式(2)中的Cplx作为ω5,在离线优化所得到的参数组合的基础上,为五个非离散参数构建内容自适应参数偏移模型,同时考虑φij、ωj
Figure FDA0003857928340000042
h(ωj)的影响:
Figure FDA0003857928340000051
其中,a和b是常量,φij是两个模块之间模块间相关性,βi是用于控制每个参数动态范围的参数,
Figure FDA0003857928340000052
是描述Δpi与其对应的码率改变量ΔRi之间关系的函数,h(ωj)是描述Δωj与其对应的码率改变量ΔRj之间关系的函数。
CN202110384146.0A 2021-04-09 2021-04-09 面向智慧法院场景的多层次感知视频编码算法优化方法 Active CN113099226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110384146.0A CN113099226B (zh) 2021-04-09 2021-04-09 面向智慧法院场景的多层次感知视频编码算法优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110384146.0A CN113099226B (zh) 2021-04-09 2021-04-09 面向智慧法院场景的多层次感知视频编码算法优化方法

Publications (2)

Publication Number Publication Date
CN113099226A CN113099226A (zh) 2021-07-09
CN113099226B true CN113099226B (zh) 2023-01-20

Family

ID=76675918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110384146.0A Active CN113099226B (zh) 2021-04-09 2021-04-09 面向智慧法院场景的多层次感知视频编码算法优化方法

Country Status (1)

Country Link
CN (1) CN113099226B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115103186A (zh) * 2022-06-20 2022-09-23 北京大学深圳研究生院 一种码率的控制方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120934A (zh) * 2018-09-25 2019-01-01 杭州电子科技大学 一种适用于hevc视频编码的帧级量化参数计算方法
CN110493597A (zh) * 2019-07-11 2019-11-22 同济大学 一种高效感知视频编码优化方法
CN110944199A (zh) * 2019-11-28 2020-03-31 华侨大学 一种基于时空感知特征的屏幕内容视频码率控制方法
CN111193931A (zh) * 2018-11-14 2020-05-22 深圳市中兴微电子技术有限公司 一种视频数据的编码处理方法和计算机存储介质
CN112004084A (zh) * 2019-05-27 2020-11-27 北京君正集成电路股份有限公司 一种利用量化参数排序的码率控制优化方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190082182A1 (en) * 2017-09-08 2019-03-14 Université de Nantes Method and device for encoding dynamic textures
US11064203B2 (en) * 2018-03-12 2021-07-13 Nvidia Corporation SSIM-based rate distortion optimization for improved video perceptual quality

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120934A (zh) * 2018-09-25 2019-01-01 杭州电子科技大学 一种适用于hevc视频编码的帧级量化参数计算方法
CN111193931A (zh) * 2018-11-14 2020-05-22 深圳市中兴微电子技术有限公司 一种视频数据的编码处理方法和计算机存储介质
CN112004084A (zh) * 2019-05-27 2020-11-27 北京君正集成电路股份有限公司 一种利用量化参数排序的码率控制优化方法及***
CN110493597A (zh) * 2019-07-11 2019-11-22 同济大学 一种高效感知视频编码优化方法
CN110944199A (zh) * 2019-11-28 2020-03-31 华侨大学 一种基于时空感知特征的屏幕内容视频码率控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合视觉感知特性的HDR视频编码率失真优化算法;杨桐等;《光电工程》;20180115(第01期);全文 *

Also Published As

Publication number Publication date
CN113099226A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Huang et al. Perceptual rate-distortion optimization using structural similarity index as quality metric
EP2629523B1 (en) Data compression for video
CN101416512B (zh) 基于纹理水平的量化调整方法
US8165204B2 (en) Resource allocation for frame-based controller
US8331449B2 (en) Fast encoding method and system using adaptive intra prediction
CN104320657B (zh) Hevc无损视频编码的预测模式选择方法及相应的编码方法
KR20080042827A (ko) 콘텐트 적응형 레이트 제어를 제공하기 위한 비디오 엔코딩시스템 및 방법
Zhang et al. A new rate control scheme for video coding based on region of interest
CN101416511A (zh) 基于纹理水平的量化调整
CN110036637A (zh) 结合多个去噪声化技术及并行分组图像补块的非局部适应性环路滤波器
US20060256856A1 (en) Method and system for testing rate control in a video encoder
EP3545677A1 (en) Methods and apparatuses for encoding and decoding video based on perceptual metric classification
Pan et al. Frame-level Bit Allocation Optimization Based on<? brk?> Video Content Characteristics for HEVC
CN112825557A (zh) 一种针对于视频编码的自适应感知时空域量化方法
CN116916036A (zh) 视频压缩方法、装置及***
CN113099226B (zh) 面向智慧法院场景的多层次感知视频编码算法优化方法
CN107690069B (zh) 一种数据驱动的级联视频编码方法
Ma et al. An adaptive lagrange multiplier determination method for dynamic texture in HEVC
Minoo et al. Perceptual video coding with H. 264
CN110800298A (zh) 码率分配方法、码率控制方法、编码器和记录介质
CN104796704B (zh) 一种用于可伸缩视频编码的宏块级码率控制方法
Chen et al. CNN-based fast HEVC quantization parameter mode decision
CN109618155B (zh) 压缩编码方法
CN114173131A (zh) 一种基于帧间相关性的视频压缩方法及***
Cui et al. Subjective quality optimized intra mode selection for H. 264 I frame coding based on SSIM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant